近 些 年 来 ， 人 工 智 能 领域 的 研究 与 应 用 已 经 成 为 全 球 性 的 科技 热点 ， 作 为 计算 机 科学 领域 与 人 工 智 能 领域 中 的 一 个 重要 方向 ， 
而 目 然 语言 处 理 涉 及 语言 学 、 计 算 机 科学 、 数 学 等 多 种 学 科 ， 必 然 也 会 受到 越 来 越 多 的 关注 。 因 此 ， 本 书 的 出 版 正 为 其 时 ， 正 当 其 
用 。 


美国 塔 尔 顿 州 立 大 学 教授 Richard M Reese 的 这 本 书 是 一 部 目 然 语言 处 理 领域 的 着 作 。 全 书 内容 丰 富 ， 对 目 然 语言 处 理 的 基础 
知识 进行 了 全 面 手 述 与 忌 结 。 本 书评 细 介 绍 了 目 然 语言 处 理 的 多 种 技术 ,包括 NLP 工 具 、 文 本 分 词 、 文 本 断 句 、 词 性 判断 、 人 物 识 
别 、 文 本 分 类 、 关 系 提取 以 及 组 合 应 用 等 ， 结 合 多 个 示例 进行 深入 分 析 ， 并 米 用 Java 编 程 语言 进行 处 理 与 结果 分 析 。 


翻译 一 本 教科 书 式 的 瑞 文 原著 ， 真 的 是 一 次 非常 难 志 的 经 历 ， 感 谢 机 械 工业 出 版 社 给 我 提供 了 这 样 的 机 会 ， 我 也 尽量 保持 了 原 
闭 的 风格 和 行文 特点 。 承 蒙 多 位 学 者 敦 励 ， 译 者 有 幸 将 国外 优秀 的 原著 介绍 给 广大 读者 ， 我 在 此 表示 衷心 的 感谢 ， 同 时 感谢 出 版 社 
编辑 对 文稿 做 了 大 量 处 理工 作 。 无 论 您 是 工程 师 、 科 研 工人 作者、 学生， 人 还 是 教师 ， 希 望 在 阅读 本 书后 都 能 够 有 一 定 的 收获 。 


虽然 我 已 经 竭尽 全 力 还 原 原 闭 的 本 意 ， 也 进行 了 多 轮 校 稿 和 通读 ， 但 由 于 时 间 以 及 水 平 有 限 ， 难 免 有 不 当 之 处 ， 冤 请 广大 读者 
DTE. 
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Richard M.Reese 曾 就 职 于 学 术 界 和 工业 界 。 他 曾 在 电信 和 航天 工业 领域 工作 17 年 ， 期 间 曾 担任 研发 、 软 件 开发 、 监 督 和 培训 
等 多 个 职位 。 他 目前 任教 于 塔 尔 顿 州立 大 学 ， 运 用 他 多 年 来 积累 的 行业 经 验 来 完善 他 的 课程 。 


Richard 曾 出 版 过 关于 Java 和 C 的 书籍 ， 他 使 用 简洁 易 用 的 方法 讨论 主题 ， 这 些 书籍 包括 《EJB 3.1Cookbook》， 有 天 Java 7 
和 Java 8 的 新 功能 、Java 认 证 以 及 jiMonkey 引 警 ， 以 及 一 本 关于 C 指 针 的 书 。 


我 要 感谢 我 的 女儿 麻 妮 弗 ， 因 她 发 表 了 很 多 评论 ， 并 做 出 很 大 贡献 。 她 的 付出 是 无 价 的 。 


审 校 者 简介 


Suryaprakash C.V. 目 2009 年 开始 工作 于 NLP 领域 ， 他 先后 毕业 于 物理 学 及 计算 机 科学 专业 。 后 来 ， 他 有 机 会 进入 他 喜欢 的 领 
域 ( 目 然 语言 处 理 ) 工作 。 


目前 ， 他 在 Senseforth Technologies 公 司 担任 技术 顾问 。 


趣 与 利 葵 从 事 黑客 工作 后 ， 他 爱 上 了 精 酿 啤酒 、 
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我 要 感谢 同事 们 支持 我 的 事业 和 工作 。 这 在 审 稿 过 程 中 给 了 我 很 大 帮助 。 
Waterford 的 软件 开 友 人 员 ， 当 他 不 再 因 兴 
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Evan Dempsey 是 一 名 
Common Lisp， 并 继续 从 事 机 器 学 习 的 前 沿 研究 。 他 是 许多 开源 项 目的 贡献 者 。 

Anil Omanwar 是 一 个 充满 活力 的 人 ， 他 对 于 最 热门 的 技术 趋势 和 研究 充满 激情 。 他 拥有 超过 8 年 的 认 知 计算 研究 经 验 ， 先 后 
从 事 过 自然 语言 处 理 、 机 器 学 习 、 信 息 可 视 化 等 领域 ， 下 一 个 主要 研究 领域 是 文本 分 析 。 

他 精通 各 种 领域 下 的 情感 分 析 、 问 千 反 馈 、 文 本 聚 类 、 和 短语 提 取 等 拷 术 ， 这 些 领 域 包括 生命 科学 、 制 造 业 、 零 售 业 、 电 子 两 
务 、 酒 店 业 、 客 户 关 系 ， 银 行业 和 社交 媒体 等 


他 目前 与 1BM 实 验 室 合 作 ， 主 要 项 目 为 生命 科学 领域 的 NLP 与 1BM Watson。 他 的 研究 目标 是 能 够 自动 化 关键 手动 步骤 ， 并 协 
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助 领域 专家 优化 人 机 功能 。 
在 业余 时 间 ， 他 喜欢 公 和 从 、 摄影 和 旅行 。 他 随时 准备 迎接 技术 挑战 。 
Amitabh Sharma 是 一 名 职业 软件 工程 师 。 他 曾 在 电信 和 商业 分 析 领 域 的 企业 应 用 万 面 做 过 大 量 工 作 。 他 的 工作 专注 于 面向 服 


语言 等 ， 如 Java、Python 等 。 


务 的 架构 、 数 据 仓 库 和 语言 等 ， 


目 然 语言 处 理 (NLP) 已 用 于 解决 各 种 各 样 的 问题 ， 包 括 对 搜索 3 引擎 的 广 持 ， 对 网 页 文本 的 总 结 与 分 类 ， 以 及 结合 机 器 学 习 技 
术 解 决 诸如 语音 识别 、 查 询 分 析 等 问题 。 它 已 经 在 任何 包含 有 用 信息 的 文件 中 使 用 。 
NLP 用 于 增强 应 用 程序 的 实用 性 和 功能 ， 主 要 通过 简化 用 尸 输入 以 及 将 文本 转换 成 更 加 可 用 的 形式 来 实现 。 实 际 上 ，NLP 能 够 


处 理 各 种 来 源 的 文本 ， 使 用 一 系列 核心 NLP 任务 从 文本 中 转化 或 提取 信息 。 
NLP 应 用 中 可 能 遇 到 的 核心 NLP 任务 ， 每 个 NLP 任务 都 从 问题 的 摘 述 以 及 可 应 用 领域 开始 。 介 绍 每 项 任务 中 比较 


本 书 重点 介绍 


困难 的 问题 ， 以 便 你 能 更 好 地 理解 问题 。 随 后 通过 使 用 大 量 的 Java 技 术 和 APl 来 广 持 NLP 任务 。 


43565 
小 月 上 
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ASB fi A 
第 1 章 解 释 了 NLP 的 重要 性 和 用 法 。 本 章 以 简单 的 例子 来 解释 如 何 使 用 NLP 技术 。 


第 2 章 主要 讨论 标记 化 ， 标 记 化 是 使 用 更 为 先进 的 NLP 近 术 的 第 一 步 ， 本 章 介绍 了 核心 java 和 Java NLP 标记 化 APl。 
这 一 步 是 其 他 许多 下 六 NLP 任 务 的 预 处 理 步 骤 ， 其 中 文本 元 素 不 应 跨越 


第 3 章 证 明 句 子 边 界 消 层 技术 是 一 个 重要 的 NLP 任务 
句子 边界 进行 分 阳 。 这 样 束 可 以 确保 所 有 短语 都 在 一 个 句子 中 ， 并 支持 词性 分 析 。 
第 4 章 涵 盖 了 通常 所 说 的 命名 实体 识别 。 这 个 任务 主要 涉及 识别 人 、 地 点 和 文本 中 相似 的 实体 。 该 拷 术 是 处 理 查 询 和 搜索 的 初 
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词性 是 文本 中 的 语法 元 素 ， 例 如 名 词 和 动词 。 识 别 这 些 元 素 是 确定 文本 含义 和 检测 文本 内 关系 的 重 


第 5 草 说 明 如 何 检测 词性 ， 


要 步骤 。 


第 6 草 证 明文 本 分 类 对 于 垃圾 邮件 检测 和 情感 分 析 等 任务 非常 有 用 。 此 外 ， 本 草 也 对 支持 文本 分 类 的 NLP 技 术 进 行 了 调查 和 说 
BB. 


第 7 章 演 示 解 析 树 。 解 析 树 可 应 用 于 很 多 目的 ， 其 中 包括 信息 提取 。 信 息 提取 拥有 这 些 元 素 之 间 关 系 的 信息 。 通 过 一 个 实现 简 
单 查 询 的 例子 来 况 明 这 个 过 程 。 


第 8 章 包含 从 各 种 类 型 的 文件 (如 PDF 和 Word 文 件 ) 中 提取 数据 的 技术 。 接 下 来 主要 介绍 了 如 何 将 以 前 的 NLP 技术 结合 至 一 个 
管道 中 以 解决 更 大 的 问题 。 
阅读 本 书 的 技术 准备 

Java SDK 7 用 于 说 明 NLP 近 森 。 各 种 NLP API 是 必需 的 并 可 以 随时 下 载 。1DE 可 选择 ， 并 不 做 强制 要 求 。 
本 书 读者 对 象 


对 NLP 技术 感 兴趣 的 、 有 Java 经 验 的 开 友 人员 会 上 友 现 这 本 书 很 有 用 。 不 需要 事先 具备 NLP 知识 。 


第 1 草 NLP 简介 


目 然 语言 处 理 (NLP) 是 一 个 宽泛 的 主题 ， 它 以 借助 计算 机 分 析 目 然 语言 为 核心 ， 主 要 涉及 语音 处 理 、 关 系 结构 提取 、 文 档 分 
类 、 文 本 摘要 等 任务 。 不 过 ， 这 些 看 似 各 异 的 任务 都 依赖 于 一 些 基本 技术 ， 包 括 分 词 、 断 句 、 分 类 和 关系 提取 等 ， 而 本 书 也 更 侧重 
于 这 些 基本 技术 的 研究 。 首 先 ， 本 章 将 详细 讨论 什么 是 NLP， 为 何 NLP 非 常 重要 ， 以 及 NLP 的 具体 应 用 领域 有 哪些 。 


很 多 语言 和 工具 都 广 持 NLP 任务 。 本 书 主要 讨论 Java 语 言 以 及 各 种 Java API 如 何 文 持 NLP。 本 章 首 先 介绍 一 些 音 用 的 AP1， 包 
括 Apache 的 OpenNLP、 斯 坦 福 的 NLP 库 ， 以 及 LingPipe 和 GATE 等 。 


接 下 来 进一步 分 析 前 面 提 到 的 那些 NLP 基本 技术 。 本 书 将 基于 NLP API 介 绍 这 些 技术 的 基本 原理 及 其 具体 使 用 方法 。 很 多 技术 
都 会 使 用 一 些 模型 ， 这 些 模 型 可 以 看 作 一 组 规划， 这 些 规则 用 于 执行 分 词 等 任务 。 它 们 通常 由 从 文件 实例 化 的 类 表示 。 最 后 会 说 明 
如 何 为 支持 NLP 任 务 准备 数据 。 


NLP 并 不 简单 。 虽 然 有 举 问 题 可 以 相对 简单 地 解决 ， 但 大 多 数 问题 都 需要 使 用 非 单 复杂 的 技术 。 本 书 仪 使 痰 者 对 NLP 处 理 技 术 
有 初步 认识 ， 使 其 在 处 理 具体 问题 时 能 够 使 用 相应 的 技术 。 


NLP 是 一 个 非常 复杂 的 领域 ， 本 书 通过 java 实现 一 些 核心 的 NLP 任务 ， 以 帮助 读者 略 帘 自 然 语言 处 理 中 冰山 的 一 角 。 在 书 中 ， 
通过 Java SE SDK 和 OpenNLP、Stanford NLP 等 开源 库 展 示 了 NLP 的 一 些 基本 技术 。 使 用 这 些 库 以 前 ， 需 要 将 一 些 API JAR 文 件 
关联 a 到 相关 API 的 项 目 中 。 关 于 这 些 库 的 说 明 可 以 参照 1.4 节 ， 相 关 的 下 载 链接 也 一 并 附 上 。 本 书 所 有 例子 都 是 在 NetBeans 8.0.2 下 
开发 的 ， 读 者 需要 通过 工程 的 属性 对 话 框 自行 添加 相关 API JAR 文 件 的 链接 。 


1.1 什么 是 NLP 


NLP 的 定义 为 : NLP 是 一 个 使 用 计算 机 科学 、 人 工 智能 和 形式 语言 概念 对 自然 语言 进行 分 析 与 研究 的 领域 。 用 通俗 的 话 来 讲 ， 
就 是 如 何 用 一 些 方法 和 工具 从 类 似 网 页 、 文 档 这 样 的 自然 语言 资源 中 得 到 有 意义 的 、 有 用 的 信息 。 


这 不 仪 是 一 个 有 意思 的 学 术 难 题 ， 也 充斥 着 巨大 的 商业 价值 ， 从 它 在 搜索 引擎 上 的 应 用 就 可 以 看 出 。 用 户 输 入 的 查询 语句 经 过 
NLP 技术 处 理 后 才能 返回 他 们 想 要 的 结果 ， 现 代 的 搜索 引擎 在 这 方面 已 经 非常 做 得 非常 成 功 了 。 此 外 ，NLP 技 术 在 自动 救援 系统 、 
复杂 问答 系统 (如 IBM Watson 项 目 ) 中 也 有 广泛 应 用 。 


当 进 行 处 理 语 言 时 ， 会 频繁 使 用 司 、 语 法 、 语 义 。 语 法 是 构成 一 个 有 效 语句 的 规则 ， 例 如 最 单 见 的 英语 句子 结构 是 “主语 + 谓 
语 动词 + 宾语 ”结构 ， 如 “Tim hit the ball”。 而 不 是 其 他 反常 语序 上， 类似“Hit ball Tim”。 尽 管 相 比 于 计算 机 语言 ， 英 语 的 语 
法 很 不 严格 ,但 语句 基本 还 是 会 遵守 一 定 的 语法 规则 。 


语义 是 指 一 个 句子 所 表达 的 意思 。 懂 英语 的 人 都 明白 “Tim hit the ball” 这 句 话 的 意思 。 但 不 管 是 英语 还 是 其 他 语言 ， 在 很 
多 情况 下 都 存在 一 定 的 二 义 性 ， 一 个 句子 的 意思 可 能 需要 通过 上 下 文才 能 真正 确定 。 我 们 会 看 到 很 多 机 器 学 习 技 术 是 如 何尝 试 理解 
文本 的 正确 含义 的 。 


后 续 的 讨论 将 会 介绍 很 多 语言 学 的 词 L， 这 些 术语 一 万 面 可 以 帮助 读者 更 好 地 理解 目 然 语言 ， 另 一 万 面 也 可 以 在 解释 大 量 NLP 
技术 的 时 候 提 供 一 个 共同 的 词汇 表 。 我 们 将 看 到 文本 如 何 被 拆 分 成 独立 的 元 素 ， 而 这 些 元 素 叉 如 何 被 分 类 。 


总 的 来 况 ，NLP 技 术 是 用 来 增强 应 用 程序 的 ， 用 程序 为 用 户 提 供 更 有 价值 的 服务 。 NLP 技术 既 包 含 相对 简单 的 应 用 ， 也 包含 最 
前 沿 科技 。 本 书 将 通过 具体 实例 襄 明 一 些 可 以 解决 特定 问题 的 简单 NLP 方法 ， 也 会 介绍 应 用 于 更 复杂 需求 的 高 级 库 和 类 。 


1.2. 为何 使 用 NLP 


NLP 技 术 应 用 的 万 式 .多 种 多 样 ， 解 决 的 问题 也 各 有 不 同 。 以 文本 分 析 为 例 ， 它 既 包 括 用 尸 在 网 上 输入 的 简 蛙 查询 语句 ， 也 包括 
需要 生成 摘要 的 大 型 文件 。 近 些 年 来 ， 非 结构 化 数据 数量 在 飞速 增加 ， 它 们 以 博客 、 微 博 等 社交 媒体 的 形式 广泛 散布 于 整个 网 络 ， 
其 数量 之 大 已 远 远 超过 人 类 阅读 能 力 的 极限 。NLP 技 术 是 分 析 这 些 数据 的 最 佳 手 段 。 


机 器 学 习 和 文本 分 析 是 提高 应 用 价值 的 常用 手段 。 常 见 应 用 领域 如 下 。 


` 搜索 : 识别 文本 中 的 特定 元 素 ， 可 以 仅仅 是 寻找 文件 中 的 名 字 ， 也 可 以 涉及 同义词 、 误 拼写 单词 分 析 ， 以 找到 与 原 搜索 近似 


. 机 器 翻译 : 将 一 种 语言 翻译 成 另 一 种 语言 。 
` 提取 摘要 : 对 段落 、 文 章 、 文 档 或 文档 集合 自动 提取 摘要 。NLP 在 这 一 方向 已 经 十 分 成 功 。 
. 命名 实体 识别 (NER) : 从 文本 中 提取 地 点 、 任 务 、 事 物 的 名 称 ， 通 种 用 于 和 其 他 NLP 任务 (如 查询 ) 的 连接 。 


- 信息 分 组 : 主要 基于 文本 数据 ， 可 自动 创建 一 系列 反映 文件 内 容 的 类 别 。 比 如 有 些 网 站 会 根据 用 户 需要 将 内 容 自动 分 类 列 在 


. 词性 标注 (POS) : 将 文本 分 隔 为 不 同 的 语法 元 素 (如 名 词 、 动 词 ) ， 作 为 文本 后 续 分 析 的 基础 。 
. 情感 分 析 : 自动 分 析 人 们 对 书 、 电 影 或 其 他 产品 的 情绪 和 态度 ， 自 动 获得 消费 者 对 产品 的 反馈 。 


.问答 系统 : IBM 的 Watson 系统 是 很 好 的 例子 ， 它 已 经 在 Jeopatdy 竞 赛 中 胜 过 人 类 ， 当 然 智 能 问答 不 仅 限 于 玩 这 种 综艺 游戏 ， 它 


在 医疗 等 行业 已 经 有 很 好 的 应 用 。 


语音 识别 : 虽然 人 的 语音 很 难 分 析 ， 但 NLP 技术 在 语音 识别 领域 取得 了 很 多 成 就 。 
(B ANGES EA: 通过 知识 数据 目 动产 生 文本 ， 可 用 于 自动 播报 天 和 气 1 
节 会 对 该 过 程 进行 评述 。 


il 


息 或 总 结 医 疗 报 告 单 。 


1.3 NLP 的 难点 


NLP 技 术 主 要 基于 机 器 学 习 方 法 解决 问题 ， 因 此 基本 流程 为 训练 模型 ,验证 模型 准确 度 ， 并 利用 这 


义 性 ,需要 结合 


个 


六 模型 
-H FP 


LL 


解决 实际 问题 ，1.6 


上 下 文才 能 确定 其 含义 。 本 章 主要 探讨 其 中 更 有 意义 的 几 个 难点 。 
要 确定 文本 是 否 区 分 大 小 写 ， 标 点 符号 
行 说 明 。 


TS 


和 | 数 


单词 的 语言 


由 于 多 种 因素 的 影响 ， 使 得 NLP 非 单 复杂 。 比 如， 世界 上 有 几 自 种 目 然 语 言 ， 每 一 种 都 有 不 一 样 的 语法 规则 。 单 词 很 多 具有 履 
像 ) 、 超 链接 、 重 复 标 氮 〈… 或 ~) 、 文 件 后 缀 名 以 及 来 在 名 字 中 的 点 号 等 


在 字符 层面 上 ， 需 要 考虑 以 下 因素 。 首 先 要 确定 文档 的 字符 编码 万 式 ， 是 ASCIll、UTF-8、UTF-16， 还 是 Latin-1。 其 次 ， 


EB 
ES 


TO 


这 些 
分 词 并 不 难 做 ， 但 对 于 像 汉语 这 样 词 与 词 之 间 无 间隔 的 
第 二 步 
单词 的 时 候 ， 
第 三 步 
引擎 


要 特殊 处 理 ， 有 时 候 还 需要 考虑 字符 表情 (一 些 特定 的 字符 组 合 、 字 符 图 


大 多 会 出 现在 文本 预 处 理 阶段 ，1.7 节 会 进一步 
JJ 


步 进 


E 


AE 


前 弟 会 使 用 词 干 法 来 处 理 但 询 语 句 。 


给 字 词 和 语素 标注 语义 标签 ， 标 注 它们 是 哪 种 类 型 的 单元 。 语 素 是 文本 中 最 小 的 语法 单位 ， 例 如 前 绎 和 后 绥 
词 干 化 处 理 ， 也 就 是 找 出 单词 中 的 主干 部 分 ， 例 如 单词 "walking" 


语言 ， 分 词 是 件 十 分 困难 的 事情 。 
我 们 往往 需要 考虑 同义词 、 缩 写 、 站 字母 缩写 、 拼 写 习 惯 等 。 


NLP 的 第 一 步 是 将 一 个 句子 /文本 拆 分 成 一 个 词语 序列 ， 这 些 词语 称 为 词 项 ， 而 这 种 处 理 技术 器 称 为 分 词 。 对 于 用 空格 来 分 P 


=) 
T 


a 


“oper”， 但 它 的 词 元 是 “operate 


很 多 场景 下 的 分 析 结 果 都 很 精确 。 


a" 


Ms.”， 又 或 者 数字 “12.834” , 


决 了 这 个 问题 


"walked" "walks" 的 词 干 是 “walk”。 搜 索 
与 词 干 化 类 似 的 还 有 词 形 还 原 。 这 个 过 程 主要 确定 单词 的 基本 形式 ， 也 称 为 词 元 。 举 个 例子 ， 单 词 “operating” 的 词 干 


词 形 还 原 是 比 词 干 化 更 精确 的 一 个 过 程 ， 通 常会 基于 单词 表 或 形态 学 技巧 来 得 到 词 元 ， 


一 个 个 词汇 的 组 合 束 是 短语 或 句子 。 但 句子 的 确定 并 不 是 人 简 旱地 寻找 句子 末尾 的 句点 ， 因 为 很 多 其 他 地 万 也 会 出 现 句 点 ， 


它 主要 确定 一 个 单词 在 一 个 或 多 个 句子 中 的 指 代 关系 。 比 如 下 面 这 个 句子 : 
"The city is large but beautiful.It fills the entire valley." 
句子 中 的 “it” 指 代 “city" 


ZEE 


在 此 基础 上 ， 还 需要 进一步 理解 句子 中 哪些 是 名 词 ， 哪 些 是 动词 。 有 时 人 们 并 不 明确 单词 乙 间 的 指 代 关系 。 共 指 消 解 很 好 地 解 
文 来 推断 。 比 如 “John went back home.It was situated at the end of a cul-de-sac.” 


然而 ， 当 一 个 单词 有 多 个 意思 的 时 候 ， 需 要 使 用 词义 消 歧 算法 来 确定 含义 ， 有 时 人 
比如 “John went back home” 中 “home” 指 的 是 一 间 房 子 ， 一 个 城市 还 是 其 他 的 什么 东西 ? 它 的 具体 意思 往往 只 能 通过 上 下 
尽管 困难 很 多 ， 但 在 多 数 情况 下 NLP 技术 还 是 可 以 合理 地 处 理 好 这 些 问 题 的 ， 并 提供 附加 的 信息 
绪 ， 进 而 为 不 满意 的 消费 者 提供 免费 的 产品 。 又 如 对 医疗 检查 报 


Mi 


这 
告 


FIX RAE. 


进行 总 结 ， 突 出 显示 比较 重要 的 条 目 。 


比如 通过 推 特 数据 分 析 消 费 


提取 摘要 是 指 对 文本 内 容 产 生 一 个 简短 描述 的 过 程 ， 这 些 文本 内 容 可 以 


是 多 个 甸子、 段落 、 一 个 或 多 个 文档 。 其 主旨 是 找到 能 
表达 这 个 内 容 的 语句， 或 要 理解 这 些 内 容 的 主要 信息 ， 或 获取 用 户 想得到 的 条 目 第 


党 弄 清楚 内 容 的 上 下 文 是 提取 摘要 的 关键 。 


14 NLPILESL AS 


NLP 工具 有 很 多 。 一 部 分 可 以 借助 Java SE SDK 使 用 ， 但 功能 有 限 ， 只 能 处 理 简单 的 问题 ; 另外 一 部 分 是 开源 库 ， 如 Apache 
的 OpenNLP 和 LingPipe， 可 以 用 来 解决 比较 复杂 的 NLP 占 题 。 


Java 的 字符 串 类 ， 如 String、SstringBuilder、stringBuffer 可 以 视 为 低级 的 NLP 工具 ， 这 些 类 包含 了 最 基本 的 搜索 、 匹 配 、 文 
本 蔡 换 功能 。 此 外 ，Java 也 支持 正则 表达 式 ， 这 些 正 则 表达 式 主 要 用 于 特殊 编码 和 子 串 匹配 。Java 也 为 使 用 正则 表达 式 提 供 一 组 丰 
富 的 方法 。 


Java 也 在 一 定 程度 上 支持 分 词 (将 文本 分 隅 为 独立 的 元 素 ) : 
String 类 中 的 split 方 法 
- StreamTokenizet 类 
. String l'okenizer X 


此 外 ， 融 是 各 种 NLP 库 和 APl。 下 面 的 表格 中 列 出 了 部 分 Java 语 言 的 NLP AP1， 大 多 数 都 是 开源 的 。 当 然 还 有 一 些 是 商业 APl， 
本 书 主要 天 注 开 源 APl。 


API 网 址 
Apertium http://www.apertium.org/ 
文本 工程 通用 架构 http://gate.ac.uk/ 
Learning Based Java http://cogcomp.cs.illinois.edu/page/software_view/LBJ 
LinguaStream http://www.linguastream.org/ 
LingPipe http://alias-1.com/lingpipe/ 
Mallet http://mallet.cs.umass.edu/ 
MontyLingua http://web.media.mit.edu/~hugo/montylingua/ 
Apache OpenNLP http://opennlp.apache.org/ 
UIMA http://uima.apache.org/ 
Stanford Parser http://nlp.stanford.edu/software 


很 多 NLP 任 务 可 以 组 成 一 个 流水 线 ， 里 面包 含 一 系列 NLP 任 务 ， 可 以 实现 某 个 目标 。 支 持 流水 线 的 示例 框架 有 GATE 和 Apache 
UIMA 等 。 


下 一 节 将 会 进一步 研究 部 分 NLP APl， 包 括 这 些 API 的 整体 框架 以 及 每 个 APl 包 含 的 一 些 相关 链接 。 


1.4.1 Apache OpenNLP 


Apache OpenNLP 不 仅 具 备 了 大 多 数 弟 用 的 NLP 功 能 ， 还 包括 执行 特定 任务 、 训 | 练 模型 、 测 试 模型 等 的 组 件 。OpenNLP 的 使 
用 步骤 一 般 是 先 从 文件 中 实例 化 一 个 支持 当前 任务 的 模型 ， 然 后 在 该 模 型 上 执行 相关 方法 来 完成 任务 。 


下 面 的 例子 中 ， 我 们 将 对 一 个 简单 的 字符 串 进行 分 词 。 当 然 ， 要 让 代码 正确 执行 ，FileNotFoundException 和 IOException 的 
异常 捕获 代码 需要 补 全 。 使 用 try-with-resource 模 块 ， 借 助 en-token.bin 文 件 打 开 一 个 FilelnputStream 实 例 ， 其 中 en-token.bin 
文件 包含 一 个 已 使 用 英文 文本 训练 好 的 分 词 模型 : 


try (InputStream is = new FileInputStream( 
new File(getModelDir(), "en-token.bin")))| 
// Insert code to tokenize the text 
j catch (FileNotFoundException ex) { 


} catch (IOException ex) | 


在 try 块 中 ， 用 这 个 文件 创建 一 个 TokenizerModel 类 实例 ， 再 用 这 个 实例 创建 Tokenizer 类 实例 : 


TokenizerModel model = new TokenizerModel(is); 
Tokenizer tokenizer - new TokenizerME (model); 


Aj WsRdtokenize75;&, WORT A, A ARE 7 Stringxi UB: 


String tokens[] = tokenizer.tokenize("He lives at 1511 W." 
+ "Randolph."); 


使 用 一 个 for 循 环 输出 分 词 结果 ， 使 用 中 括号 标记 每 个 词 项 : 


for (String a : tokens) | 
System.out.print("[" + a + "] "); 


} 


System.out.println(); 


执行 完 后 ， 可 以 得 到 如 下 结 


[He] [lives] [at] [1511] [W.] [Randolph] [.] 


fEix Tr, tokenizeriRaltW.z&— Maisie, MRNA Reino Fae a Pain] Du. 


本 书 中 的 许多 示例 都 将 使 用 DpenNLP API。OpenNLP 链 接 如 下 表 所 示 : 


OpenNLP 网 址 
官网 https://opennlp.apache.org/ 
文档 https://opennlp.apache.org/documentation.html 
Javadoc http://nlp.stanford.edu/nlp/javadoc/Javanlp/index.html 
F https://opennlp.apache.org/cgi-bin/download.cgi 
Wiki https://cwiki.apache.org/confluence/display/OPENNLP/Index9o3bjsessionid-32B408C73729 ACC 
CDD071D9EC354FC54 


1.4.2 Stanford NLP 


作为 NLP 领域 的 领导 者 ，stanford NLP 组 开 友 了 很 多 NLP 工具 ，stanford CoreNLP 是 其 中 之 一 。 此 外 ， 他 们 还 开发 了 其 他 的 
工具 组 ， 如 Stanford Parser, Stanford POS tagger, Stanford Classifier 等 。Stanford 系 列 工 具 同 时 支持 中 英文 和 基本 NLP 功 


能 ， 包 括 分 词 和 命名 实体 识别 |。 

所 有 这 些 工具 都 基于 GPL 开 源 协 议 友 布 ， 但 不 允许 用 于 商业 应 用 。 友 布 的 API 不 论 是 组 织 结构 ， 还 是 对 核心 的 NLP 功 能 的 支持 
度 ， 都 非常 优秀 。 

Stanford 工 具 组 支持 多 种 分 词 扩 术 ， 本 书 使 用 其 中 的 PTBTokenizer 类 来 说 明 NLP 库 的 用 法 。 构 造 器 的 参数 包括 一 个 Reader 对 
£x, 一 个 LexedTokenFactory<T> 参 数 ， 以 及 一 个 指定 选项 设置 的 字符 串 。 

LexedTokenFactory 是 一 个 由 CoreLabelTokenFactory 和 WordTokenFactory 类 实现 的 接口 。 前 一 个 类 会 保留 每 个 词 项 人 在 字 


符 串 中 的 起 止 位 置 ， 而 后 一 个 类 仪 仪 返 回 词 项 ， 不 保留 任何 位 置信 息 ， 黑 认 选 择 后 一 个 类 。 


下 面 的 例子 使 用 CoreLabelTokenFactory 类 。 用 待 处理 字符 串 急 始 化 一 个 stringReader 实 例 ， 最 后 的 选项 设置 字符 串 设 为 
null。PTBTokenizer 实 现 了 lterator 接 口 ， 因 此 可 以 用 hasNext 和 mext 方 法 来 列 出 得 到 的 词 项 列表 。 


PTBTokenizer ptb = new PTBTokenizer( 

new StringReader("He lives at 1511 W. Randolph."), 

new CoreLabelTokenFactory(), null); 

while (ptb.hasNext()) { 
System.out.println(ptb.next()); 


输出 结果 如 下 : 


Randolph 


本 书 频繁 使 用 Stanford NLP 库 。 下 表 为 一 些 Stanford NLP 相关 链接 ， 主 要 包括 各 个 库 的 说 明文 档 和 下 载 链接 等 。 


Stanford NLP 
官网 
核心 NLP 
解释 器 
POS iioi ds 
java-nlp-user 邮件 列表 


网 4 
http://nlp.stanford.edu/index.shtml 
http://nlp.stanford.edu/software/corenlp.shtmlz Download 
http://nlp.stanford.edu/software/lex-parser.shtml 
http://nlp.stanford.edu/software/tagger.shtml 


https://mailman.stanford.edu/mailman/listinfo/java-nlp-user 


1.4.3 LingPipe 


LingPipe 是 一 组 实现 了 常用 NLP 功 能 的 工具 ， 支 持 模 型 训练 和 测试 。 这 组 工具 包括 完全 免费 版 与 斋 要 许可 版 ， 其 中 ， 免 费 版 也 
系 止 用 于 商业 产品 。 


还 是 以 Tokenizer 类 进行 分 词 为 例 说 明 LingPipe 的 用 法 。 先 声明 两 个 列表 ， 一 个 用 于 存放 词 项 ， 另 一 个 用 于 存放 空格 : 


List«String» tokenList new ArrayList<>() ; 


new ArrayList<>(); 


List<String> whiteList 
接 下 来 ， 声 明 一 个 待 分 词 的 字符 串 : 


String text = "A sample sentence processed \nby \tthe " + 
"LingPipe tokenizer."; 


然后 创建 一 个 Tokenizer 类 的 实例 。 使 用 基于 Indo-European factory 类 的 Tokenizer 类 的 静态 tokenizer 方 法 来 创建 类 实例 : 


Tokenizer tokenizer = IndoEuropeanTokenizerFactory.INSTANCE. 
tokenizer(text.toCharArray(), 0, text.length()); 


调用 tokenize 方 法 可 以 产生 上 面 定 义 的 两 个 列表 : 
tokenizer.tokenize(tokenList, whiteList); 
最 后 ， 输 出 分 词 结果 : 


for(String element : tokenList) 1 


System.out.print (element + " "J; 


| 


System.out.println(í); 
结果 如 下 : 


A sample sentence processed by the LingPipe tokenizer 


LingPipe 相 关 的 链接 如 下 表 所 示 : 


LingPipe 网 址 


官网 http://alias-i.com/lingpipe/index.html 
教程 http://alias-1.com/lingpipe/demos/tutorial/read-me.html 
JavaDocs http://alias-1.com/lingpipe/docs/api/index.html 
下 载 http://alias-1.com/lingpipe/web/install.html 
E http://alias-1.com/lingpipe/web/download.html 
模型 http://alias-1.com/lingpipe/web/models.html 

1.44 GATE 


文本 工程 通用 架构 (GATE) &xElSheffieldX 5£7PER39—2BJava T E, seREÉEREISESRINLPTESS , YRRJLAFBH-TTASSNLPARE 
工作 流 。 

GATE 在 提供 API 的 同时 还 包括 其 他 一 些 工 具 。GATE Developer 是 一 个 文本 可 视 化 工具 ， 可 以 展示 文本 标注 ， 通 过 高 亮 标 记 来 
检查 文本 。GATE Mimir 对 大 量 来 源 文 本 进行 索引 和 搜索 GATE Embedded 具 有 直接 向 代码 中 植 入 GATE 的 功能 。 用 GATE 来 实现 
NLP 任务 代码 量 很 少 。 下 面 是 一 些 与 GATE 相 天 的 链接 。 


GATE 网 址 
官网 https://gate.ac.uk/ 
参考 资料 https://gate.ac.uk/documentation.html 
JavaDocs http://jenkins.gate.ac.uk/job/GATE-Nightly/javadoc/ 
下 载 https://gate.ac.uk/download/ 
Wiki http://gatewiki.sf.net/ 
1.4.5 UIMA 


结构 信息 标准 组 织 (OASIS) 是 信息 两 业 技术 领域 的 一 个 协会 ， 提 出 了 一 套 NLP 工 作 流 框架 标准 UIMA， 由 Apache UIMAxz 
持 。 

UIM 人 A 虽然 是 关于 工作 流 的 标准 ， 但 它 也 对 相关 的 设计 模式 、 数 据 表 达 、 文 本 分 析 的 用 户 角 色 进 行 了 描述 。UIMA 相 关 的 链接 
如 下 : 


Apache UIMA 网 址 
官网 https://uima.apache.org/ 
参考 资料 https://uima.apache.org/documentation.html 
JavaDocs https://uima.apache.org/d/uima]-2.6.0/apidocs/index.html 
下 载 https://uima.apache.org/downloads.cgi 


Wiki https://cwiki.apache.org/confluence/display/UIM A/Index 


1.5 文本 处 理 概 区 


NLP 任务 种 类 很 多 ， 本 书 仅 对 其 中 一 部 分 进行 介绍 。 下 面 是 本 书 涉及 内 容 的 纲要 ， 在 后 续 章 节 将 一 一 讨论 。 
ECT 
- 文本 断 句 
-人物 识别 


.词性 判断 


当然 ， 为 实现 一 些 自然 语言 处 理 目标 ， 这 些 任 务 往往 会 组 合 起 来 使 用 ， 这 一 点 在 后 面 草 节 中 会 有 更 多 体现 。 比 如 分 词 技术 只 是 
一 个 基础 性 步骤 ， 它 通 弟 会 作为 菏 些 任务 的 第 一 步 。 


1.5.1 Xs rin] 


文本 可 以 分 解 成 不 同类 型 的 基本 元 素 ， 如 词 、 句 子 、 段 落 ， 这 些 元 素 的 分 类 方法 也 有 很 多 。 本 书 的 文本 分 解 特 指 将 文本 分 隔 成 
词 ， 也 称 为 词 项 。 形 态 学 是 研究 词语 结构 的 专业 ， 我 们 会 用 到 很 多 形态 学 的 专业 词汇 来 解释 NLP 扩 术 。 词 的 类 型 很 多 ， 下 面 列 出 一 
些 常 见 的 类 别 | : 


. 简单 词语 : 像 这 句 话 里 这 些 词 都 可 以 算是 简单 词语 。 

. 词素 : 一 个 单词 中 最 小 的 有 意义 单元 成 为 词素 。 比 如 单词 “bounded” 中 ，“bound” 是 词素 ， 词 素 也 包括 后 级 “e 
前 缀 /后 缀 : 是 指 词根 前 后 的 辅助 部 分 。 比 如 单词 “graduation” 中 “ation” 是 词根 “graduate” 的 后 缓 。 

: 同义词 : 是 指 有 具有 相同 意义 的 词语 。“small” 和 “tiny” 可 以 算是 同义词 。 解 决 这 一 问题 需要 进行 词义 消 歧 。 

- 缩写 词 : 比如 我 们 将 Mister Smith 缩 写成 Mr.Smith。 


. 首 字母 缩写 : 在 计算 机 等 很 多 专业 领域 ， 首 字母 缩写 都 十 分 常见 。 通 常 把 一 些 较 长 词句 的 首 字母 组 合 起 来 ， 形 成 缩写 。 比 如 
将 FORmulaTRANslation 写 成 FORTRAN， 甚 至 还 有 递归 缩写 GNU (Gnu's Not Unix) ， 当 然 还 有 我 们 正在 讨论 的 NLP。 


Aly 


- a£]: 像 ”We DP wor cC 这 种 将 两 个 单词 合并 的 写法 ， 也 是 很 常见 的 。 
` 数字 : 普通 的 数字 只 包含 基本 的 0~9 十 个 字符 ,但 复杂 的 数字 可 能 还 包括 小 数 点 、 正 负 号 等 多 种 科学 计数 标志 。 
在 NLP 任务 中 ， 确 定 这 些 词 项 的 类 型 十 分 重要 ， 比 如 在 断 句 时 ， 我 们 需要 将 句子 分 隅 成 词 ， 并 判断 词 是 否 是 句子 的 结尾 。 


一 过 程 称 为 分 词 。 分 词 的 结果 是 一 组 词 项 ， 其 中 决定 文本 在 哪里 断 开 的 元 素 叫 作 分 隅 待 。 对 于 大 多 数 英 文 文 本 来 况 ， 空 格 是 
单 用 的 分 隅 符 ， 包 括 空 日 街 、tab 符 、 回 车 符 。 


分 词 可 以 简单 ， 也 可 以 复杂 。 我 们 用 String 类 的 split 函 数 来 做 一 个 简单 的 分 词 。 首 先 定义 一 个 字符 串 ， 包 含 如 下 待 分 词 文本 : 

String text = "Mr. Smith went to 123 Washington avenue."; 

split 方 法 用 一 个 正则 表达 式 参数 来 指定 文本 分 隔 的 方式 。 下 面 代 码 中 参数 是 \s+ ， 表 示 一 个 以 上 的 空格 作为 分 隔 的 分 隔 符 : 
String tokens[] = text.split("\\s+") ; 

再 用 一 个 for-each 循 环 显示 分 词 结果 : 


for(String token : tokens) { 
System.out.println(token); 


结果 如 下 所 示 : 


Mr. 


Smith 


went 


to 
123 


Washington 


avenue. 


第 2 章 会 更 深入 地 探讨 分 词 技术 。 


1.5.2 XAA 


我 们 普 志 认 为 断 句 非 常 简 单 ， 因 为 在 天 文中 ， 只 需要 找到 点 号 、 问 号 、 感 叹 号 等 这 些 句 终 字 符 束 可 以 确定 一 个 句子 的 结尾 。 然 
而 ， 事 情 并 非 想 象 得 这 么 简单 ， 短 语 中 嵌入 的 点 号 (“Dr.Smith” 或 “204SW.Park Street" ) 等 其 他 因素 使 得 准确 断 句 变 难 ， 第 
3 章 中 我 们 会 详细 分 析 。 这 一 步骤 也 称 为 句子 边界 消 歧 (SBD) 。 瑞 文 的 9BD 相 较 于 句 终 符 明 确 的 汉语 、 日 语 更 有 研究 意义 。 
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断 句 是 很 多 其 他 NLP 任务 的 前 导 工 作 ， 像 词性 标注 、 实 体检 测 都 需要 在 独立 的 句子 上 进行 ， 问 答应 用 也 需要 对 句子 进行 识别 。 
要 完成 这 项 任务 ， 必 须 先 准确 地 完成 断 句 。 


下 面 我 们 用 Stanford 的 DocumentPreprocessor 类 来 演示 如 何 断 句 。 这 个 类 接受 一 个 简单 的 文本 或 XML 文 档 ， 返 回 一 个 句子 


列表 ， 并 给 出 了 lterable 接 口 ， 方 便 循环 遍历 。 


秆 先 声 明 一 个 字符 串 仔 放 文本 : 
String paragraph = "The first sentence. The second sentence."; 


对 这 个 字符 串 创 建 一 个 StringReader 对 象 ， 该 支持 DocumentPreprocessor 类 的 构造 器 所 需 的 read 方 法 : 


Reader reader = new StringReader (paragraph); 
DocumentPreprocessor documentPreprocessor - 
new DocumentPreprocessor(reader); 


现在 ，DocumentPreprocessor 对 象 里 仓储 了 对 应 的 文本 段落 。 我 们 可 以 再 创建 一 个 字符 串 列表 来 仓储 从 文本 中 提取 出 来 的 名 
子 : 


List«String» sentenceList = new LinkedList«String»(); 


对 documentPreprocessor 的 每 一 个 元 素 进行 处 理 。 这 些 元 素 是 HasWord 列 表 ， 每 个 HasWord 对 象 表示 一 个 词 。 我 们 用 一 个 
StringBuilder 来 存储 HasWorqd 列 表 中 的 每 个 元 率 ， 然 后 把 它 转 成 字符 串 加 入 到 上 面 定义 的 sentenceList : 


for (List«HasWord» element : documentPreprocessor) | 
StringBuilder sentence - new StringBuilder(); 
List«HasWord» hasWordList - element; 
for (HasWord token : hasWordList) { 
sentence.append(token).append(" "); 


| 


sentenceList.add(sentence.toString()); 


最 后 ， 用 for-each 语 句 输 出 SentenceList 中 所 有 的 句子 : 


for (String sentence : sentenceList) | 


System.out.println(sentence) ; 


输出 结果 如 下 : 


The first sentence . 


The second sentence . 


在 第 3 章 会 更 深入 地 介绍 SBD。 


1.5.3. AZAR] 


搜索 引擎 极 大 地 满足 了 大 多 数 用 户 寻找 商家 网 址 、 电 影 上 映 时 间 等 需求 ， 文 本 处 理 器 可 以 很 轻松 地 从 文档 中 找到 指定 的 单词 或 
短语 。 然 而 如 果 想 进一步 考虑 同义词 的 问题 ， 事 情史 会 复杂 得 多 ， 如 何 找到 与 用 户 搜索 词 意思 相近 或 相同 主题 的 内 容 是 一 个 很 有 难 
度 的 任务 。 

举 个 例子 ， 比 如 我 们 想 买 一 台新 的 笔记 本 电脑 的 时 候 去 网 上 搜索 ， 当 在 搜索 引擎 中 搜索 指定 配置 的 笔记 本 时 ， 搜 索引 擎 如 何 得 
到 我 们 想 要 的 结果 ? 实际 上 ， 搜 索引 擎 通常 是 在 我 们 进行 搜索 之 前 丈 一 直 在 对 商家 提供 的 各 种 信息 进行 分 析 ， 需 要 从 网 上 各 种 杂 生 
无 章 的 信息 中 获取 到 有 用 的 信息 ， 并 反馈 给 用 户 。 


最 终 展现 给 用 户 的 结果 往往 是 按照 类 别 进行 分 组 的 ， 通 常会 将 类 别 显 示 在 网 页 左 侧 。 比 如 ， 笔 记 本 电脑 的 类 别 可 能 包括 超级 笔 
记 本 (Ultrabook) 、 合 歌 笔 记 本 (Chromebook) ， 或 者 按 硬盘 大 小 进行 分 类 。 下 面 是 亚马逊 搜索 结果 的 一 个 截图 : 


'efine Dy 


Eligible for Free Shipping 
Free Shipping by Amazon 


Notebook Type 


L Laptop (6,423) 
| Ultrabook (1,038) 


.] Convertible 2 in 1 (178) 
| Chromebook (178) 


Hard Disk Size 

.| 2TB& Up (88) 

L] 1.5 TB (50) 

| 1TB (2,039) 

_ 501 to 999 GB (1,906) 
_| 321 to 500 GB (4,631) 
_ 121 to 320 GB (3,994) 
..] 81to 120 GB (304) 

L] 80 GB &Under (1,206) 


有 的 搜索 十 分 简单 。 比 如 ，3string 类 和 其 他 类 似 的 类 都 包含 indexOf 和 lastlndexOf 方 法 ， 能 够 寻找 字符 串 企 String 对 象 中 出 现 
的 位 置 。 下 面 的 代码 融通 过 indexOf 方 法 返回 了 目标 字符 串 在 原来 文本 中 首次 出 现 的 位 置 索引 : 


String text = "Mr. Smith went to 123 Washington avenue."; 
String target = "Washington"; 

int index = text.indexOf (target); 
System.out.println (index) ; 


输出 结果 是 22。 
当然 ， 这 是 最 简单 的 搜索 问题 。 
文本 检索 中 ， 有 一 个 常用 的 技术 叫 作 反 向 索引 。 束 是 事先 对 文档 进行 分 词 和 定位 ， 将 比较 重要 的 词 和 它们 出 现 的 位 置 存储 在 反 


同 索 引 中 。 当 用 户 对 文档 进行 检索 的 时 候 ， 只 需要 在 反 向 索引 中 查找 到 单词 ， 丈 可 以 得 到 它 的 位 置信 息 。 这 比 每 次 检索 都 进行 整个 
文档 搜索 要 快 得 多 。 这 种 数据 结构 在 数据 库 、 信 息 检索 系统 和 搜索 引擎 中 应 用 广泛 。 


更 复杂 的 搜索 可 能 是 像 “ 北 京 哪里 的 烤鸭 店 比较 好 吧 ”” 这样 的 检索 需求 。 为 了 回答 好 这 样 的 提问 ， 需 要 对 得 询 语句 进行 实体 
识别 ,标注 出 句子 中 有 意义 的 词汇 ， 然 后 对 句子 进行 语义 分 析 ， 得 到 句子 的 意义 ， 最 后 进行 搜索 并 对 候选 结果 排序 。 


下 面 通过 组 合 tokenizer 和 OpenNLP 中 的 TokenNameFinderModel 类 来 展示 寻找 名 字 的 过 程 。 由 于 方法 可 能 会 抛 出 
IOException 的 异常 ， 我 们 用 一 个 try-catch 来 处 理 ， 下 面 代码 首先 定义 了 一 个 和 仓 放 句子 的 字符 串 : 


try { 
String[] sentences = { 
"Tim was a good neighbor. Perhaps not as good a Bob " + 


"Haywood, but still pretty good. Of course Mr. Adam " + 
"took the cake!"}; 
// Insert code to find the names here 
} catch (IOException ex) { 
ex.printStackTrace(); 


在 处 理 句子 前 ,需要 先进 行文 本 分 词 。 下 面 的 代码 初始 化 了 一 个 Tokenizer 类 实例 : 
Tokenizer tokenizer = SimpleTokenizer.INSTANCE; 


我 们 需要 使 用 一 个 模型 来 断 句 ， 这 样 可 以 避免 将 不 同 句子 中 的 词组 合成 一 个 词 。 我 们 从 en-ner-person.bin 文 件 中 初始 化 一 个 
TokenNameFinderModel 实 例 : 


TokenNameFinderModel model = new TokenNameFinderModeli ( 
new File("C:\\OpenNLP Models", "en-ner-person.bin")); 


接 下 来 ， 我 们 用 NameFinderME 类 来 完成 寻找 名 字 的 任务 。 我 们 用 TokenName-FinderModel 的 实例 来 初始 化 这 个 
NameFinderME 实 例 : 


NameFinderME finder = new NameFinderME model); 


下 面 用 一 个 for-each 循 环 来 处 理 多 个 句子 。 对 每 个 句子 ， 使 用 tokenize 方 法 分 词 ，find 方 法 得 到 一 个 Span 对 象 数组 。 这 些 
Span 对 象 存储 了 find 方 法 识别 出 的 词 项 起 止 位 置 索引 : 


for (String sentence : sentences) { 
String[] tokens - tokenizer.tokenize(sentence); 
Span[] nameSpans - finder.find(tokens); 


System.out.println(Arrays.toString( 
Span.spansToStrings (nameSpans, tokens))); 


输出 结果 如 下 : 


[Tim, Bob Haywood, Adam] 


第 4 章 会 对 NER 进 行 更 深入 的 讨论 。 


1.5.4. 词性 判断 


文本 分 析 的 另 一 个 任务 是 词性 判断 ， 也 融 是 将 一 个 句子 分 解 成 词 或 词组 后 ， 对 它们 进行 分 类 (名 词 、 动 词 、 形 容 词 、 介 词 
F) 。 我 们 通常 在 读 小 学 时 丈 学 会 怎么 判断 词性 ， 也 知道 不 要 在 句子 末尾 用 介词 连接 下 一 个 句子 。 


局 性 检测 在 提取 关系 ,确定 句子 意义 等 NLP 任 务 中 有 很 大 作用 ， 确 定 这 些 关 系 称 为 解析 。 词 性 标注 可 以 使 数据 质量 更 好 ， 使 法 
水 线 下 游 的 工作 处 理 起 来 更 容易 。 


启 性 标注 是 很 复杂 的 任务 ， 不 过 好 在 这 些 功 能 已 封 潜在 相关 工具 和 类 内 ， 我 们 可 以 用 OpenNLP 的 一 些 类 来 简单 了 解 词性 标 
注 。 我 们 需要 一 个 模型 来 判断 词性 ， 下 面 代 码 从 en-pos-maxent.bin 文 件 中 初始 化 一 个 POSModel 类 实例 : 


POSModel model = new POSModelLoader () . load ( 
new File("../OpenNLP Models/" "en-pos-maxent.bin") ) ; 


POSTaggerME 类 是 实际 进行 标注 的 类 ,我们 用 上 面 的 模型 来 创建 它 : 


POSTaggerME tagger = new POSTaggerME (model); 


接 下 来 ， 需 要 定义 一 个 字符 串 来 仔 放 待 处 理 的 句子 : 


String sentence = "POS processing is useful for enhancing the " 
+ "quality of data sent to other elements of a pipeline."; 


然后 以 whitespace 分 词 器 对 文本 进行 分 词 : 
String tokens[] = WhitespaceTokenizer.INSTANCE.tokenize (sentence); 


Br BORA) LAFHPOSTTaggerMEZSBStag73;Z2RXECGT NE f , GREETS BSF : 


String[] tags = tagger.tag(tokens); 


最 后 ， 将 标注 结果 输出 : 


for(int i=0; i«tokens.length; i++) { 
System.out.print (tokens[i] + "[Í" + tags[i] + "] "); 


输出 结果 如 下 : 


POS [NNP] processing[NN] is[VBZ] useful[JJ] for[IN] enhancing [VBG] the [DT] 
quality[NN] of[IN] data[NNS] sent [VBN] to[TO] other[JJ] elements [NNS] 
of [IN] a[DT] pipeline. [NN] 


可 以 看 到 每 一 个 词 项 后 面 都 跟着 一 个 市 方 括号 的 缩写 词 ， 表 示 这 个 词 的 词性 ， 比 如 NNP 表 示 专 有 和 名词。 缩写 词 的 具体 对 应 关 
系 ， 将 在 第 5 草 中 完整 给 出 。 


1.5.5 文本 分 类 


文本 分 类 是 指 给 文档 中 找到 的 信息 打上 标注 ， 这 些 标注 可 能 是 事先 知道 的 ， 也 可 能 是 不 知道 的 。 如 果 事 先 给 定 标注 ， 那 么 这 个 
过 程 叫 作 分 类 ， 如 果 标 注 未 知 ， 我 们 称 之 为 聚 类 。 


在 NLP 中 ， 分 类 是 比较 热点 的 一 个 任务 ， 可 以 把 一 些 文本 内 容 归 到 某 几 个 组 别 中 。 比 如 军用 飞机 可 以 分 类 为 战斗 机 、 又 炸 机 、 


类 器 通 单 是 按照 它们 输出 类 型 来 区 分 。 比 如 二 分 分 类 器 ， 输 出 结果 是 0 或 1， 弟 用 于 垃圾 邮件 分 类 。 另 外 一 种 为 多 类 分 类 器 ， 


相 比 于 其 他 NLP 任务 ， 分 类 是 一 个 更 复杂 的 流程 ， 其 中 涉及 的 步骤 我 们 会 在 1.6 节 详细 讨论 ， 这 里 残 不 过 多 展开 了 。 人 在 第 6 章 
中 ， 我 们 会 仔细 研究 分 类 的 过 程 ， 并 给 出 一 个 具体 的 实例 。 


15.6 天 系 提取 


天 系 提取 是 措 从 文本 中 找到 内 在 关系 ， 比 如 下 面 这 个 句子 “The meaning and purpose of life is plain to see”， 我 们 可 以 


知道 主题 是 “The meaning and purpose of life”， 它 与 最 后 一 个 短语 的 关系 是 显而易见 的 。 


人 类 可 以 很 容易 地 友 现 事物 之 间 的 关系 ， 特 别 是 表层 的 天 系 ， 而 探索 事物 育 后 深层 次 天 系 则 相对 困难 得 多 。 用 计算 机 去 友 现 广 
本 中 所 摘 述 事物 之 间 的 天 系 是 一 个 极 具 挑战 性 的 任务 ， 但 好 在 计算 机 可 以 处 理 庞大 的 数据 集 ， 从 海量 数据 中 友 现 天 系 ， 或 者 在 合理 
的 时 间 内 完成 关系 分 析 ， 这 是 人 类 无 法 做 到 的 。 


天 系 有 很 多 种 ， 比 如 事物 的 位 置 ， 两 个 人 之 间 的 关系 ， 系 统 的 组 成 部 分 ， 谁 对 某 事 负责 等 。 关 系 提取 在 构建 知识 库 ， 分 析 趋 
势 ， 搜 集 情报 等 诸多 万 面 有 很 大 应 用 价值 。 通 常 我们 也 将 关系 提取 叫 作文 本 分 析 。 


现在 ， 很 多 技术 手段 能 够 实现 天 系 提 取 ， 在 第 7 章 我 们 会 一 一 介绍 。 


这 里 ， 我 们 用 Stanford NLP 工具 里 的 StanfordCoreNLP 类 来 简单 演示 一 下 其 中 一 项 技术 。 该 类 可 以 用 多 个 “annotator'” 组 
成 的 流水 线 来 处 理 文本 ， 一 个 “annotator” 可 以 认为 是 一 种 文本 处 理 操作 。 我 们 可 以 利用 java.util 包 中 的 Properties 对 象 给 流水 


线 注 入 多 个 “annotator”，。 


首先 ， 我 们 创建 一 个 Properties 类 实例 ， 然 后 加 入 几 个 annotator: 


Properties properties = new Properties(); 
properties.put ("annotators", "tokenize, ssplit, parse"); 


这 里 我 们 用 了 三 个 annotator 指 定 所 需 操 作 ， 第 一 个 tokenize 是 分 词 ， 第 二 个 ssplit 是 将 分 词 后 的 词 项 分 隔 组 成 句子 ， 最 后 一 
个 parse 是 对 句子 进行 语义 分 析 ， 解 析 。 


接 下 来 ， 我 们 用 前 面 的 properties 实 例 来 初始 化 一 个 StanfordCoreNLP 实 例 ， 作 为 流水 线 : 
StanfordCoreNLP pipeline = new StanfordCoreNLP (properties); 


Falke, HSRBEBUSCNgISSH— annotation tH : 


Annotation annotation = new Annotation ( 


"The meaning and purpose of life is plain to see."); 


然后 ， 用 流水 线 对 象 的 annotate 方 法 来 处 理 annotation 对 象 。 最 后 用 prettyPrint 方 法 打印 出 处 理 结果 : 


pipeline.annotate (annotation); 
pipeline.prettyPrint(annotation, System.out); 


输出 结果 如 下 : 


Sentence #1 (11 tokens): 

The meaning and purpose of life is plain to see. 

[Text-The CharacterOffsetBegin=0 CharacterOffsetEnd-3 PartOfSpeech-DT] 
[Text-meaning CharacterOffsetBegin-4 CharacterOffsetEnd-11 
PartOfSpeech=NN] [Text-and CharacterOffsetBegin-12 CharacterOffsetEnd-15 
PartOfSpeech=CC] [Text-purpose CharacterOffsetBegin-16 
CharacterOffsetEnd-23 PartOfSpeech=NN] [Text=of CharacterOffsetBegin-24 
CharacterOffsetEnd-26 PartOfSpeech-IN] [Text-life CharacterOffsetBegin-27 
CharacterOffsetEnd-31 PartOfSpeech=NN] [Text-is CharacterOffsetBegin-32 
CharacterOffsetEnd-34 PartOfSpeech-VBZ] [Text-plain 
CharacterOffsetBegin-35 CharacterOffsetEnd-40 PartOfSpeech-JJ] [Text-to 
CharacterOffsetBegin-41 CharacterOffsetEnd-43 PartOfSpeech-TO] [Text=see 
CharacterOffsetBegin-44 CharacterOffsetEnd-47 PartOfSpeech=VB] [Text-. 
CharacterOffsetBegin-47 CharacterOffsetEnd-48 PartOfSpeech-.] 


(ROOT 
(S 
(NP 
(NP (DT The) (NN meaning) 
(CC and) 
(NN purpose)) 
(PP (IN of) 
(NP (NN life)))) 
(VP (VBZ is) 
(ADJP (JJ plain) 
(S 
(VP (TO to) 
(VP (VB see)))))) 
(5 api 


root (ROOT-0, plain-8) 

det (meaning-2, The-1) 

nsubj (plain-8, meaning-2) 

conj and(meaning-2, purpose-4) 
prep of (meaning-2, life-6) 
cop(plain-8, is-7) 


aux(see-10, to-9) 


xcomp(plain-8, see-10) 


输出 结果 的 第 一 部 分 是 文本 分 隅 的 词 项 和 对 应 的 词性 标注 。 之 后 的 树 状 结构 展示 了 句子 的 组 织 结构 。 最 后 的 部 分 表示 的 是 各 个 
元 素 在 语法 层面 的 天 系 。 比 如 下 面 这 一 行 : 


prep of(meaning-2, life-6) 


它 表 示 单词 “meaning” 和 “life” 之 间 的 关系 是 用 介词 “of” 来 表达 。 这 个 信息 在 很 多 文本 简化 任务 中 十 分 有 价值 
1.5.7 “方法 组 合 


前 面 也 提 到 过 ，NLP 应 用 问题 通常 涉及 多 个 基本 的 NLP 任 务 ， 我 们 通常 将 这 些 组 合成 一 个 流水 线 来 得 到 所 需 的 结果 。 流 水 线 的 
使 用 ， 在 前 面 1.5.6 节 中 已 经 介绍 过 。 


实际 上 大 多 数 NLP 解决 方案 都 会 使 用 流水 线 。 在 第 8 章 中 我 们 会 给 出 多 个 例子 。 


1.06 理解 NLP 模型 


时 然 解决 NLP 占 题 的 万 法 和 工具 种 类 有 很 多 


， 但 它们 之 间 也 会 有 交集 ， 这 一 节 ， 我 们 对 这 部 分 内 容 进行 简单 介绍 。 在 本 书后 面 
的 章节 中 ， 这 些 步骤 会 不 断 出现 ， 当 然 ， 细 节 上 会 有 少量 调整 。 所 以 从 现在 起 ， 理 解 清楚 这 些 步骤 ， 对 于 学 好 NLP 技术 有 很 大 帮 
助 。 

这 些 基本 步骤 包括 : 

. 明确 目标 

选择 模型 


` 构建 、 训 练 模型 
.验证 模型 


` 使 用 模型 


后 面部 分 会 对 这 几 个 步骤 进行 讨论 


1.6.1 ”明确 目标 


理解 清楚 街 解决 的 问题 十 分 重要 ， 只 有 基于 对 问题 的 理解 ， 才 能 很 好 地 设计 出 一 个 包含 多 个 NLP 任 务 的 解决 万 案 。 
举 个 例子 ， 比 如 我 们 要 回答 类 似 “Who is the mayor of Paris” 的 问题 时 ， 我 们 需要 先 将 查询 语句 解析 成 POS， 再 确定 问题 


的 本 质 ， 接 着 确定 问题 中 符合 条 件 的 元 素 ， 最 后 我 们 从 一 个 创建 好 的 NLP 知 识 库 中 找到 相关 信息 来 回答 这 个 问题 。 


有 的 问题 并 不 太 复杂 。 比 如 说 我 们 可 能 需 


能 需要 将 文本 分 隅 成 元 素 ， 然 后 进行 分 类 ， 类 似 商 家 通过 产品 摘 述 来 分 析 产 品 的 潜在 类 
别 。 骨 如 通过 汽车 的 描述 文本 将 汽车 分 成 轿车 、 运 动 汽 车 、SUV 或 小 型 汽车 。 


当然 ， 我 们 必须 了 解 清楚 各 种 已 有 的 NLP 任务 ， 这 样 才能 在 遇 到 问题 的 时 候 ， 弄 清楚 要 解决 的 问题 到 搬 是 哪 一 类 。 


1.6.2 ”选择 模型 


我 们 看 到 很 多 NLP 任 务 都 是 基于 模型 来 做 的 。 比 如 我 们 要 将 一 个 文档 分 隔 成 句子 ， 需 要 一 些 算法 ， 然 而 即使 是 最 好 的 句子 边界 
判断 技术 也 没 法 做 到 特 分 百 断 句 正确 。 因 此 我 们 通常 选择 用 模型 来 做 文本 元 素 检测 ， 然 后 根据 这 些 元 素 的 信息 来 决定 该 在 什么 地 万 
Wr). 


好 的 模型 需要 基于 所 处 理 的 文档 类 型 来 构建 ， 比 如 在 历史 资料 文档 中 建立 的 断 句 模型 如 果 应 用 到 医疗 文件 中 ， 效 果 可 能 会 很 
Zz. 


现在 已 经 有 很 多 开 友 设计 好 的 模型 了 ， 我 们 可 以 直接 拿 来 用 。 一 般 是 根据 我 们 要 解决 的 具体 问题 ， 选 择 一 个 最 合适 的 模型 。 但 
是 ， 当 我 们 找 不 到 合适 的 模型 时 ， 丈 需要 目 己 去 训练 新 的 模型 。 两 种 策略 的 选择 往往 需要 考虑 精度 和 速度 的 权衡 ， 理 解 清楚 问题 的 
本 质 和 需要 的 结果 质量 是 选择 合适 模型 的 关键 。 


1.6.3 构建、 训练 模 型 


训练 模型 是 对 一 个 数据 集 执行 某 个 算法 ， 进 而 调解 模型 ， 验 证 模型 的 过 程 。 很 多 时 候 ， 我 们 需要 对 文本 进行 全 新 的 处 理 才 能 达 
到 预期 目标 。 比 如 我 们 在 处 理 新 闻 文 本 时 候 使 用 的 模型 ， 直 接 用 来 处 理 微 博 数据 ， 效 果 可 能 非 单 关 。 我 们 已 有 的 模型 往往 很 难 适 用 
于 新 的 数据 ， 当 出 现 这 样 的 情况 时 ， 残 需要 训练 新 的 模型 了 。 


为 了 训练 模型 ， 我 们 通 弟 需要 标记 过 的 数据 ， 也 束 是 知道 正确 结果 的 数据 。 比 如 做 记性 标注 时 ， 需 要 使 用 已 标注 的 文本 数据 来 
训练 。 当 模型 训练 时 ， 我 们 用 这 些 已 有 信息 来 创建 、 调 整 模 型 ， 这 样 的 数据 集 一 般 叫 作 语 料 库 。 


1.6.4 ”验证 模型 
一 旦 模型 建 好 ， 我 们 需要 用 一 个 样 例 集 对 它 进行 验证 。 通 弟 还 是 选择 标注 数据 来 验证 。 我 们 将 模型 的 预测 结果 与 已 知 的 正确 结 
HÆ x 


FDL, ARAHI. RRNA ase pie T HP eel FAILS, FAVES LA 
Te 


1.6.5 ”使 用 模型 


使 用 模型 时 指 将 模型 应 用 到 实际 问题 的 处 理 上 ， 具 体 的 应 用 方式 视 模 型 而 是。 前面 的 实例 中 已 经 有 过 一 些 使 用 方法 ， 比 如 词性 
标注 部 分 ， 我 们 使 用 的 POS 模 型 是 从 en-pos-maxent.bin 文 件 中 读 取 出 来 的 。 


1.7 ”准备 数据 
搜集 和 预 处 理 数 据 是 NLP 中 非常 重要 的 一 个 步骤 ， 包 括 准 备 训 练 数 据 和 处 理 数据 。 准 备 数 据 有 很 多 因素 需要 考虑 ， 这 里 我 们 主 
要 关注 如 何 用 Java 对 文本 字符 进行 处 理 。 


和 首先， 我们 需要 考虑 字符 的 表达 问题 。 尽 管 需要 处 理 的 主要 是 英文 文本 ， 但 有 时 候 也 会 碰 到 其 他 语言 的 扩 术 问题 。 这 里 不 区 涉 
及 字符 编码 上 的 差异 ， 还 天 系 到 文本 读 写 顺序 的 问题 。 比 如 日 语 是 从 右 到 左 ， 从 上 到 下 的 顺序 。 


编码 的 类 型 有 多 种 ， 包 括 ASCIl、Latin 以 及 Unicode。 下 表 详 细 列 出 了 编码 格式 说 明 ， 其 中 Unicode 比 较 特 殊 ， 是 一 种 较 复 
杂 、 可 扩展 的 编码 方案 。 


编码 fi || X 

ASCII 采用 128 (0 一 127) 个 数值 对 字符 进行 编码 

anis 包含 一 些 拉丁 语 的 变种 〈 元 音 变 音 的 不 同 组 合 ) fEHI 256 个 值 编码 ， 很 多 拉丁 语 的 版 本 被 融 
合 到 印 欧 语系 ， 如 土耳其 语 、 世 界 语 

Big5 一 种 两 字 世 编码 方案 ， 用 来 表示 中 文字 符 集 

Sitewide 有 三 种 Unicode 方案 : UTF-8, UTF-16 和 UTF-32， 分 别 使 用 1、2、4 个 字 节 。 这 种 编码 可 


以 表示 所 有 现存 语言 的 字符 ， 甚 至 包括 新 生 的 语言 ， 如 克 林 贡 语 和 精灵 语 


java 支持 以 上 所 有 编码 方案 。 我 们 可 以 用 javac 程 序 的 -encoding 命 令 行 选项 来 指定 要 使 用 的 编码 方案 。 比 如 下 面 命 令 行 指定 
了 用 Big5 编 码 格式 : 


javac -encoding Big5 


Java 对 字符 处 理 的 相关 支持 ， 主 要 用 到 最 基本 的 数据 类 型 char、Character 类 ， 以 及 下 表 列 出 的 其 他 一 些 类 和 接口 : 


相关 类 型 MEE. 

char 基本 数据 类 型 

Character char 类 型 数据 的 包装 类 

CharBuffer 该 类 支持 对 一 个 char 数组 进行 get/put 字符 或 字符 串 操作 

@ T 一 个 接口 ， 由 CharBuffer、Segment、String、StringBuffer、StringBuilder 等 


类 实现 。 文 持 字 符 串 的 只 读 访 问 


Java 还 提供 了 很 多 字符 串 处 理 的 类 和 接口 ， 下 表 是 一 个 简单 总 结 。 我 们 在 很 多 例子 中 都 会 用 到 这 些 类 。Sstring、SstringBuffer 
和 StringBuilder 这 些 类 提供 了 相似 的 字符 串 处 理 功 能 ， 只 在 可 修改 性 、 线 程 安全 性 上 和 存在 差异 。Charaterlterator 接 口 和 String- 


Characterlterator 类 提供 了 遍历 字符 串 的 功能 。Ssegment 类 表示 的 是 一 个 文本 的 一 部 分 。 


类 /接口 撕 OUR 


String 不 可 变 的 字符 串 

StringBuffer 表示 一 个 可 变 的 字符 串 ， 线程 安全 

StringBuilder 与 StringBuffer 羔 窑 ， 但 线程 不 安全 

Segment 表示 字符 数组 文本 中 的 一 部 分 ， 提供 字符 快速 访问 方法 
Characterlterator XE AY CASA Van. SCRA E W DJ 
StringCharacterlterator 实现 了 Characterlterator 的 类 


此 外 我 们 还 需要 考虑 读 取 文 件 的 格式 。 通 弟 我 们 所 处 理 的 文字 都 是 有 市 标注 的 ， 比 如 网 页 数据 ， 里 面 的 文本 是 用 HTML 语 言 标 
注 的 。 这 些 不 必要 的 内 容 ， 在 我 们 进行 处 理 之 前 需要 删 掉 。 


多 目标 因特网 邮件 扩展 (MIME) 类 型 是 用 来 区 分 文件 内 容 格式 的 ， 常 见 的 类 型 如 下 表 所 示 。 我 们 要 么 上 自己 写 代 码 去 除 或 修改 
文件 中 的 标注 ， 要 么 用 其 他 软件 来 处 理 。 有 一 些 NLP 接 口 提供 了 相关 的 格式 处 理工 具 。 


文件 格式 MIME 类 型 描述 
= iin 


application/msword O— i 
BE 微软 Office 文件 
Open Office 文件 


Office Type 


Document 


application/vnd.oasis. 


opendocument.text 


PDF Adobe 可 移植 文件 格式 
Ta ET 

XM 扩展 标记 语言 

Database 数据 库 文件 可 以 是 很 多 种 形式 


很 多 NLP 接 口 会 默认 输入 数据 是 清洗 过 的 ， 没 有 清洗 过 的 数据 会 使 结果 出 现 偏 差 。 


18 ”本 章 小 结 


本 章 我 们 介绍 了 NLP 及 其 简单 应 用 。 可 以 看 到 ，NLP 可 以 解决 从 简单 的 搜索 到 复杂 的 分 类 等 各 种 各 样 的 问题 。 本 章 还 通过 代码 
实例 展示 了 Java 语 言 对 NLP 的 支持 ， 从 对 字符 串 的 支持 ， 到 高 级 NLP 库 的 支持 。 此 外 我 们 还 谈 到 了 模型 的 训练 、 验 证 、 使 用 等 相关 
问题 。 

本 书 中 ， 我 们 会 讲 到 如 何 用 简单 的 和 复杂 的 方法 来 处 理 一 些 基本 的 NLP 任务 。 很 多 问题 用 简单 的 万 法 残 可 以 处 理 ， 在 这 种 情况 
下 ， 掌 握 简单 技术 的 使 用 方法 就 足够 了 。 当 然 有 的 情况 较为 复杂 ， 需 要 高 级 的 技术 。 


下 一 章 ， 我 们 将 会 对 文本 分 词 进行 深入 探索 。 


文本 分 词 即将 一 段 文 本 分 隅 成 多 个 独立 的 单元 ( 词 项 ) ， 以 便 在 这 些 词 项 上 进行 其 他 处 理 ， 包 括 词 干 化 ， 词 形 还 原 ， 去 除 停 用 
词 ， 同 义 词 扩展 以 及 文本 转换 成 小 写 等 。 


出 于 工作 需要 ， 我 们 会 介绍 一 些 建立 在 标准 Java 分 布 式 基础 上 的 分 词 万 法 ， 这 种 万 法 不 需要 导入 NLP 库 ， 然 而 这 些 万 法 也 是 有 
限 的 。 随 后 ， 我 们 将 讨论 NLP API 支 持 的 具体 分 词 器 和 分 词 方法 ， 参 考 这 些 例子 可 以 了 解 分 词 器 如 何 使 用 及 其 输出 的 具体 类 型 。 随 
后 我 们 对 这 些 万 法 的 异同 进行 简单 忌 结 。 


有 许多 专业 化 的 分 词 器 ， 比 如 Apache Lucene 项 目 支 持 多 种 语言 和 多 种 专业 文献 的 分 词 ，WikipediaTokenizer 类 分 词 器 专门 
处 理 维 基 有 百科 的 文 要 ，ArabicAnalyzer 类 专门 处 理 阿 拉 人 语文 本 等 ， 不 胜 枚 举 。 


我 们 也 将 检测 专业 化 的 分 词 器 如 何 训练 ， 以 便 处 理 专门 类 型 的 文本 ， 当 遇 到 不 同形 式 的 文本 时 ， 可 以 避免 再 写 一 个 新 的 分 词 
器 . 


接 下 来 ， 我 们 将 前 述 如 何 应 用 这 些 分 词 器 进行 词 干 化 ， 词 形 还 原 ， 去 除 俘 用 词 等 具体 操作 。POS3 可 认为 是 一 个 文本 分 词 的 特 


例 。 这 一 话题 将 在 第 ? 章 中 研究 。 


2.1 理解 文本 分 局 


有 许多 方法 可 对 文本 进行 分 类 ， 比 如 ， 我 们 天 心 的 字符 问题 ， 可 能 需要 忽略 标点 符号 或 将 缩 约 词 展开 。 而 对 于 单词 问题 ， 我 们 
需要 进行 不 同 的 处 理 ， 比 如 : 


. 通过 词 干 化 、 词 形 还 原 识别 词素 


. 展开 缩写 词 和 首 字 母 缩写 记 


由 于 标点 符号 有 时 是 单词 的 一 部 分 ， 因 此 并 不 能 忌 以 标点 符号 来 分 隔 单 词 ， 例 如 单词 can”t。 还 有 如 何 将 多 个 单词 组 合 形成 有 
意义 的 短语 。 语 句 判断 也 是 一 个 因素 。 我 们 不 必 通 过 句子 边界 组 合 单词 。 


本 章 只 讨论 分 词 方法 和 一 些 相关 的 拷 巧 ， 比 如 词 干 化 ， 而 分 局 方法 在 其 他 NLP 任 务 中 的 使 用 不 在 本 章 内 容 之 列 ， 可 以 去 参考 后 


2.2 ”什么 是 分 词 


分 词 (tokenization) 是 将 一 段 文 本 分 隅 成 多 个 更 为 简单 的 单元 的 过 程 ， 一 般 来 况 ， 融 是 一 些 单个 的 单词 。 词 项 由 一 组 分 隅 符 
分 开 ， 分 隅 符 通 音 是 空格 ， 在 Java 中 空格 被 定义 为 Character 类 的 isWhitespace 方 法 。 下 表 中 列 出 了 这 些 字 符 。 但 有 时 需要 使 用 不 
同 的 分 卫生 ， 例 如 当空 格 分 阳 出 了 难以 理解 的 文本 片段 时 ， 比 如 在 段 藻 边界 ， 检 测 到 这 些 文本 片段 尤为 重要 。 


字符 & x 


Unicode space character AURA ATE. Bear ATI SEIS ot ATI ) 
M U+0009 横向 制 表 

\n U+000A 换行 

\u000B U+000B 垂 向 列表 

\f U+000C 换 页 

\r U+000D [n] 4 

\u001C U+001C 文件 分 隔 符 

\u001D U+001D 群 分 隔 符 

\u001E U+001E 记录 分 隔 符号 

\u001F U+001F 单元 分 隔 符 


` 语言 : 不 同 的 语言 有 其 独特 的 挑战 。 空 格 是 常用 的 分 隔 符 ， 但 是 对 于 汉语 来 说 并 不 适用 。 
` 文本 形式 : 文本 通常 以 不 同 格式 存储 或 呈现 。 相 较 于 简单 文本 ，HTIML 或 其 他 标记 技术 的 分 词 处 理 过 程 更 为 复杂 。 


Ae ial: 对 于 诸如 一 般 搜 索 的 NLP 任务 来 说 ， 常 用 词 可 能 并 不 重要 ， 这 些 常 用 词 被 称 为 停 用 词 ， 通 常 将 其 去 掉 ， 例 
如 [11 a [11 and” [11 she » E " 


文本 扩展 : 对 于 首 字母 缩写 词 ， 有 时 需要 将 其 展开 以 便于 后 期 进行 文本 处 理 。 例 如 ， 当 搜索 关于 “机 器 ”的 问题 时 ， 知 道 


IBM € International Business Machines 的 缩写 会 很 有 帮助 。 


. 字母 大 小 写 : 在 某 些 情况 下 ， 单 词 的 大 小 写 十 分 重要 ， 有 助 于 区 分 专 有 名 词 。 进 行 分 词 时 ， 将 文本 转换 成 大 小 写 一 致 可 以 简 
化 搜索 。 


` 词 干 化 和 词 形 还 原 : 这 一 过 程 将 单词 转换 为 它们 的 词根 。 


去 除 停 用 词 可 以 节省 索引 空间 ， 加 速 索引 过 程 。 然 而 一 些 搜索 引擎 并 不 去 除 停 用 词 ， 因 其 对 于 一 些 特定 的 查询 是 有 帮助 的 。 例 
如 进行 精确 匹配 时 ， 去 除 停 用 词 会 导致 错误 。 另 外 ，NER 任 务 往往 取决 于 是 否 包含 停 用 词 。 例 如 “Romeo and Juliet” 是 部 戏剧 
取决 于 其 间 包 含 停 用 词 “and” 。 


有 许多 规定 停 用 词 的 列表 ， 但 是 有 时 停 用 词 的 使 用 也 取决 于 具体 领域 。 停 用 词 列 表 可 以 查看 网 
址 http:/ /www.fanks.nl/stopwotds， 其 中 列 出 了 几 种 英语 及 其 他 语言 的 停 用 词 。http:/ /www.textfixer.com/tesources /common-english- 
wotrds.txt 提 供 了 一 个 过 号 分 隔 格 式 的 英文 停 用 词 列表 。 


前 十 位 的 停 用 词 列表 参见 下 面 的 表格 (来 自 Stanford 网 站 http://library.stanford.edu/blogs/digital-library- 
blog/2011/12/stopwords-searchworks-be-ornot-be) 。 


fe FH in] 出 现 次 数 


the 7 578 
of 6 582 
and 4 106 
in 2 298 
a 1 137 
to ] 033 
for 695 
on 685 
an 289 
with 241 


以 下 章节 主要 关注 有 天文 文本 分 词 的 方法 ， 通 剃 使 用 空格 或 其 他 分 隔 符 以 得 到 一 组 词 项 。 


解析 与 分 词 密切 相关 ， 都 是 识别 文本 的 各 个 部 分 ， 但 解析 也 涉及 识别 语义 及 语义 间 的 相互 关系 。 
分 词 器 的 使 用 


分 词 可 以 用 于 拼写 检查 和 简单 搜索 等 任务 ， 对 于 各 种 下 游 NLP 任 务 也 十 分 有 用 ， 如 识别 POS、 文 本 断 句 和 分 类 等 。 后 面 大 多 数 
章节 中 涉及 的 任务 都 需要 先进 行 分 词 处 理 。 


通常 ， 分 词 只 是 诸多 任务 中 的 一 步 。 这 些 步 又 需要 使 用 流水 线 技术 ， 这 将 在 本 章 后 面 加 以 说 明 。 分 词 非常 重要 ， 如 果 分 词 的 结 
果 不 理想 ， 那 么 下 游 的 任务 也 将 受到 不 利 影响 。 


在 Java 中 包含 许多 种 可 行 的 分 词 器 和 分 词 扩 术 。 有 几 个 专门 设计 支持 分 词 的 Java 核 心 类 。 其 中 一 些 已 经 过 时 了 。 也 有 一 些 NLP 
API 用 来 解决 既 简 持 又 复杂 的 分 词 问题 。 接 下 来 的 两 古 将 寺 论 这 些 方法 。 首 先 ， 我 们 将 了 解 Java 核 心 类 提供 的 方法 ， 然 后 将 展示 一 
些 NLP 的 API 分 词语 料 库 。 


2.3 ”一 些 移 单 的 Java 分 词 器 


如 下 所 示 是 一 些 支 持 简单 分 词 的 Java 类 : 
: Scanner 

: String 

: BreakIterator 

: StreamTokenizer 


: SttingTokenizer 


虽然 这 些 类 提供 了 有 限 的 支持 ,但 了 解 它们 如 何 使 用 很 有 必要 。 对 于 某 些 任 务 来 说 ， 这 些 类 束 足 够 了 ， 没 有 必要 去 使 用 那些 难 
以 理解 、 效 率 较 低 的 方法 。 我 们 将 对 这 些 Java 类 分 词 器 一 一 说 明 。 


StreamTokenizer 和 和 StringTokenizer 类 不 应 该 被 用 于 新 的 开 友 。 然 而 String 类 的 split 万 法 通常 是 更 好 的 选择 。 在 这 里 介绍 它 
们 是 以 防 你 遇 到 它们 会 怀疑 是 否 应 该 使 用 。 


2.3.1 使 用 Scanner 类 


Scanner 类 用 于 从 文本 源 读 取 数 据 ， 可 能 是 来 自 标准 输入 ， 也 可 能 是 来 自 文件 。 它 提供 了 简单 易 用 的 分 词 拉 术 。 


Scanner 类 使 用 空格 作为 默认 的 分 隔 符 。 可 以 使 用 多 个 不 同 的 构造 器 创建 Scanner 类 的 实例 。 下 面 所 列 的 构造 器 使 用 了 一 个 简 
单 的 字符 串 ， 使 用 next 方 法 从 输入 流 取 得 下 一 个 词 项 ， 词 项 与 字符 串 相 隔离 ， 人 存储 在 列表 中 并 输出 : 


Scanner scanner = new Scanner("Let's pause, and then " 


+ " reflect."); 


List«String» list = new ArrayList<>() ; 
while(scanner.hasNext()) { 


String token - scanner.next(); 
list.add(token); 


| 
for(String token : list) { 
System.out.println(token); 


执行 后 输出 结果 如 下 : 


Let's 
pause, 
and 
then 


reflect. 


这 个 简单 的 方法 有 一 些 缺 点 。 正 如 第 一 个 词 Let” s， 如 果 需 要 将 其 展开 并 分 词 ， 那 么 这 个 方法 不 能 完成 。 此 外 ， 这 人 句 话 的 最 后 
一 个 单词 还 附 市 了 句号 。 
指定 分 阳 符 


如 果 我 们 不 满意 默认 的 分 阳 符 ， 可 以 使 用 几 种 方法 来 改变 它 的 表现 。 下 表 忆 结 了 几 种 方法 ， 可 以 给 你 提供 一 些 不 错 的 想法 。 


方 ik 作 H 


useLocale 使 用 locale 设置 默认 匹配 的 分 隔 符 
useDelimiter 设置 基于 字符 串 或 模式 的 分 隔 符 
USeRadix 指定 工作 时 数字 的 基数 

skip 跳 过 匹配 模式 的 输入 并 忽略 分 隅 符 
findInLine 忽略 分 隅 符 找 到 下 一 个 模式 


在 这 里 ， 我 们 将 展示 useDelimiter 方 法 的 使 用 。 如 果 在 上 一 节 例 子 中 的 while 语 句 之 前 直接 使 用 以 下 语句 ， 分 隅 符 将 只 能 使 用 
空格 、 单 引号 和 句号 。 


scanner.useDelimiter("[ ,.]"): 


PUTER TR. SBRBEST EHER T ATHA, tse CTS EERTEZ SMa: 


Let's 


reflect 


此 方法 使 用 了 字符 串 中 定义 的 pattern， 括 号 之 间 创 建 了 一 类 字符 ， 是 与 这 三 个 字符 匹配 的 正则 表达 式 。Java 中 pattern 的 解释 
可 以 参见 http://docs.oracle.com/javase/8/docs/api/。 分 隔 符 列表 可 以 使 用 reset 方 法 复位 为 空格 。 


2.3.2 ”使 用 split 方 法 


我 们 在 第 1 章 中 前 述 了 string 类 的 split 方 法 ， 具 体 如 下 : 


String text = "Mr. Smith went to 123 Washington avenue."; 


String tokens[] = text.split("\\s+"); 
for (String token : tokens) { 


System.out.println(token); 


输出 结果 如 下 : 


Mr. 


Smith 


went 


to 
123 


Washington 


avenue. 


split 方 法 也 使 用 了 正则 表达 式 。 如 果 我 们 用 上 一 节 使 用 的 字符 串 ( "Let's pause, and then reflect." ) 著 换 也 将 得 到 相同 的 


士 
全 o 


split 方 法 有 一 个 重 载 的 版 本 ， 使 用 一 个 整数 来 制定 正则 表达 式 的 pattern 匹 配 目标 文本 的 次 数 ， 当 达到 该 匹配 次 数 时 匹配 操作 


Pattern 类 也 有 split 方 法 ， 它 将 基于 创建 Pattern 对 象 使 用 的 Pattern 分隔 参数 。 


2.3.3 ”使 用 Breaklterator 类 


分 词 的 男 一 种 万 法 涉及 Breaklterator 类 的 使 用 。 该 类 支持 不 同文 本 蛙 元 的 整数 边界 位 置 。 在 本 节 中 ， 我 们 将 演示 如 何 使 用 它 


Breaklterator 类 有 一 个 默认 的 受 保护 的 构造 器 。 我 们 将 使 用 静态 的 getWordinstance 方 法 创建 一 个 类 的 实例 。 该 方法 有 一 个 
使 用 Locale 对 象 重 载 的 版 本 。 该 类 具有 多 种 方法 可 以 获得 各 种 边界 ， 如 下 表 所 示 。Done 表 明 已 经 找到 了 最 后 一 个 边界 。 


方 法 用 处 

first 返回 文本 的 第 一 个 边界 

next 返回 目前 边界 的 下 一 个 边界 

previous 返回 目前 边界 的 上 一 个 边界 

setText 将 一 个 字符 串 与 BreakIterator 实例 关联 


我 们 创建 一 个 Breaklterator 类 的 实例 及 一 个 使 用 到 的 字符 串 : 


BreakIterator wordIterator = BreakIterator.getWordInstance(); 
String text - "Let's pause, and then reflect."; 


将 文本 分 配给 实例 并 定义 第 一 个 边界 : 


wordIterator.setText (text); 
int boundary = wordIterator.first(); 
下 面 的 循环 将 使 用 begin 和 end 变 量 仓储 单词 断 开 的 开始 和 结束 边界 的 索引 ， 边 界 值 是 整数 ， 然 后 将 看 到 每 个 边界 对 及 其 关联 
文本 。 


当 找 到 最 后 的 边界 ， 循 环 终止 : 


while (boundary != BreakIterator.DONE) | 
int begin - boundary; 
System.out.print(boundary + "-"); 
boundary - wordIterator.next(); 
int end - boundary; 
if(end -- BreakIterator.DONE) break; 
System.out.println(boundary + " [" 
+ text.substring(begin, end) + "]"); 


输出 结果 如 下 ， 括 号 中 明确 给 出 了 对 应 文本 : 


0-5 [Let's] 
5-6 [ ] 
6-11 [pause] 
11-12 [,1 
12-13 | | 
13-16 [and] 
16-17 [ ] 
17-21 [then] 


21-22 [ ] 
22-29 [reflect] 
29-30 [.] 


这 一 方法 在 识别 基础 词 项 的 任务 上 表现 极 好 。 


2.3.4 ”使 用 StreamTokenizer 类 


java.io 包 中 的 StreamTokenizer 类 用 来 对 输入 流 文本 进行 分 词 ， 它 是 一 个 很 早 的 类 ， 并 不 像 下 一 节 将 讨论 的 StringTokenizer 
类 那样 灵活 。 该 类 的 实例 通常 基于 一 个 文件 创建 ， 然 后 对 文件 中 的 文本 分 词 。 可 以 使 用 字符 串 构 造 。 


该 类 使 用 nextToken 万 法 返回 下 一 个 词 项 ， 返 回 的 词 项 是 一 个 整数 ， 整 数 的 值 反 映 了 返回 的 词 项 的 类 型 ， 可 以 基于 词 项 类 型 进 
行 相应 处 理 。 


StreamTokenizer 类 的 成 员 变 量 如 下 表 所 示 : 


nval 如 果 当 前 词 项 是 一 个 数字 则 存 有 一 个 数字 
sval | String ——— 如 果 当 前 词 项 是 一 个 单词 则 存 有 这 个 词 项 
TT_EOF 流 结束 的 一 个 常数 

TT_EOL 行 结束 的 一 个 常数 

TT NUMBER 读 取 的 词 项 的 数量 

Tr WORD =e 


ttype int 读 取 的 词 项 的 类 型 


在 这 个 例子 中 ， 声 明 isEOF 变 量 (这 是 用 来 终止 循环 的 ) 之 后 创建 了 一 个 分 词 器 。nextToken 万 法 返回 词 项 的 类 型 ， 基 于 辣 项 


的 类 型 ， 得 到 数字 和 字符 串 类 型 的 词 项 


try { 
StreamTokenizer tokenizer - new StreamTokenizer( 


newStringReader("Let's pause, and then reflect.")); 
boolean isEOF - false; 
while (!isEOF) { 
int token - tokenizer.nextToken(); 
switch (token) | 
case StreamTokenizer.TT EOF: 
isEOF - true; 
break; 
case StreamTokenizer.TT EOL: 
break; 
case StreamTokenizer.TT WORD: 
System.out.println(tokenizer.sval); 
break; 
case StreamTokenizer.TT NUMBER: 
System.out.println(tokenizer.nval); 
break; 
default: 
System.out.println((char) token); 


} 
} 
} catch (IOException ex) { 
// Handle the exception 
} 


执行 代码 结果 如 下 : 


Let 


这 并 不 是 我 们 想得到 的 ， 问 题 企 于 分 词 器 使 用 单 引 号 字符 和 双 引 号 表示 引用 的 文本 。 由 于 没有 对 应 的 引号 ， 字 符 串 的 其 余部 分 
做 忽略 了 。 


可 以 使 用 ordinaryChar 万 法 指定 哪些 字符 应 为 普通 字符 ， 在 这 里 ， 单 引号 和 如 号 字符 被 指定 为 普通 字符 : 


tokenizer.ordinaryChar('V''); 
tokenizer.ordinaryChar(','); 


加 入 上 述 代码 后 执行 结果 如 下 : 


Let 


and 


then 


retlect. 


时 引号 问题 解决 后 ， 这 两 个 字符 被 视 为 分 隔 符 并 作为 词 项 返回 了 。 还 有 一 种 whitespaceChars 万 法 可 以 用 来 措 定 哪些 字符 被 视 
为 空格 。 


2.3.5 ”使 用 StringTokenizer 类 


StringTokenizer 类 在 java.util 包 中 ， 它 比 StreamTokenizer 类 更 灵活 ， 可 以 处 理 任何 来 源 的 字符 串 。 该 类 的 构造 器 以 被 分 词 的 
字符 串 作 为 参数 ， 然 后 使 用 nextToken 方 法 返回 词 项 ，hasMoreTokens 方 法 用 于 判断 输入 流 是 否 有 剩余 词 项 。 示 例如 下 : 


StringTokenizerst = new StringTokenizer("Let's pause, and " 
+ "then reflect."); 


while (st.hasMoreTokens()) { 
System.out.println(st.nextToken()); 


执行 结果 为 : 


Let's 
pause, 
and 
then 


reflect. 


构造 器 是 重 载 的 ， 允 许 指定 分 阳 得 以 及 分 隔 符 是 否 应 该 作为 一 个 词 项 返回 。 


2.3.6 ”使 用 Java 核 心 分 词法 的 性 能 考点 


使 用 这 些 Java 核 心 分 词法 时 ， 简 要 地 讨论 它们 的 表现 很 有 必要 。 由 于 影响 代码 执行 的 各 种 因素 ， 测 量 性 能 有 时 会 很 棘手 。 对 几 
个 Java 核 心 分 词 技术 的 性 能 比较 可 以 参考 http://stackoverflow.com/questions/5965767/performance-of-stringtokenizer- 
class-vs-split-method-in-java。 对 于 提 到 的 问题 ，indexOf 方 法 是 最 快 的 。 


24 NLP 分 司 器 的 AP 


这 一 节 将 演示 几 个 分 别 使 用 DpenNLP、stanford 及 LingPipe 的 API 的 不 同 分 词 方法 。 尽 管 还 有 许多 可 行 的 AP1， 但 我 们 只 演示 
这 几 个 。 这 些 例 子 将 使 你 了 解 都 有 哪些 可 行 的 万 法 。 


我 们 将 使 用 一 个 名 为 paragraph 的 字符 串 来 前 述 这 些 方法 。 字 符 串 包括 一 个 新 的 换行 符 ， 并 且 可 能 出 现在 真实 文本 的 任何 一 个 
地 方 。 它 在 这 里 定义 为 : 


private String paragraph = "Let's pause, \nand then + 
+ "reflect."; 


24.1 使 用 OpenNLPTokenizer 类 分 词 器 


OpenNLP 有 一 个 Tokenizer 接 口 ， 由 以 下 三 种 类 实现 : SimpleTokenizer、Tokenizer-ME 和 WhitespaceTokenizer。 这 个 接 
口 支持 两 种 万 法 : 


` tokenize: 给 定 一 个 字符 串 进 行 分 词 ， 并 返回 一 组 字符 串 类 型 的 词 项 。 


: tokenizePos: 给 定 一 个 字符 串 并 返回 一 组 Span 对 象 。Span 类 用 于 指定 词 项 的 开始 和 结束 的 偏 移 量 。 


2.4.1.1 _ SimpleTokenizer 类 的 使 用 


顾名思义 ，SimpleTokenizer 类 用 于 进行 文本 的 简 蛙 分 语 。 如 下 面 的 代码 所 示 ，INSTANCE 变 量 用 于 实例 化 类 。 对 paragraph 
变量 执行 tokenize 方 法 ， 可 以 得 到 其 分 词 的 词 项 : 


SimpleTokenizer simpleTokenizer = SimpleTokenizer.INSTANCE; 
String tokens[] = simpleTokenizer.tokenize paragraph); 
for(String token : tokens) { 

System.out.println(token); 


执行 后 结果 如 下 : 


Let 


pause 


and 
then 


reflect 


= 


使 用 这 一 分 词 器 ， 标 点 符号 也 被 作为 单独 的 词 项 了 。 
2.4.1.2 WhitespaceTokenizer 类 的 使 用 


顾名思义 ， 访 类 使 用 空格 作为 分 隔 符 。 在 下 面 的 代码 中 ， 先 是 创建 了 tokenizer 的 实例 ， 然 后 对 输入 的 paragraph 执 行 
tokenize 方 法 ，for 语 句 用 于 显示 输出 结果 : 


String tokens[] = 
WhitespaceTokenizer.INSTANCE.tokenize (paragraph) ; 
for (String token : tokens) { 

System.out.println (token); 


执行 后 结果 如 下 : 


Let's 


PAXIL SEAS SAECO, (ITS FOEDUS FIRJ. ZARA AtokizePosT ARI LAS UTRIUS 


边界 。 
2.4.1.3 TokenizerME 类 的 使 用 


TokenizerMEZSN Rd TREA RE (maxent) 和 一 个 统计 模型 创建 的 模型 并 用 于 分 词 。 最 大 焕 模 型 用 于 确定 数据 (或 文 
Ak) 之 间 的 天 系 。 比 如 来 目 各 种 社交 媒体 的 文本 并 不 是 格式 化 的 ， 而 且 还 使 用 了 大 量 的 倡 语 和 特殊 符号 (如 表情 ) 。 统 计 模 型 的 分 
词 器 (QURAMIRE) 提高 了 分 词 结果 的 质量 。 


该 蛋 型 较为 复杂 ， 人 在 此 不 讨论 其 细节 ， 有 兴趣 的 话 可 以 参考 http://en.wikipedia.org/wy/index.php? 


title=Multinomial logistic regression&redirectz no。 


TokenizerModel 类 隐藏 了 模型 并 用 于 实例 化 分 词 器 ， 这 个 模型 一 定 是 预先 训练 好 的 。 在 下 面 的 例子 中 ， 使 用 en-token.bin 文 
件 中 的 模型 实例 化 一 个 分 词 器 ， 这 个 模型 已 经 被 训练 好 了 ， 可 以 应 用 在 普通 英文 文本 上 。 


模型 文件 的 位 置 可 以 通过 getModelDir 万 法 得 到 。 访 方法 返回 值 取决 于 模型 在 系统 上 的 存储 位 置 。 
在 http://opennlp.sourceforge.net/models-1.5/ 这 个 网 站 上 可 以 找到 许多 模型 。 


在 创建 一 个 FilelnputStream 类 的 实例 后 ， 将 输入 流 作为 TokenizerModel 构 造 器 的 参数 。 然 后 tokenize 方 法 将 生成 一 个 字符 
串 的 数组 。 接 下 来 的 代码 用 于 展示 词 项 : 


try { 
InputStream modellInputStream = new FileInputStream( 


new File(getModelDir(), "en-token.bin")); 
TokenizerModel model - new 

TokenizerModel (modelInputStream) ; 
Tokenizer tokenizer = new TokenizerME (model); 
String tokens[] = tokenizer.tokenize (paragraph) ; 
for (String token : tokens) { 

System.out.printlin (token); 
| 


| catch (IOException ex) { 
// Handle the exception 
} 


所 得 结果 如 下 : 


Let 


'S 


2.4.2 ”使 用 Stanford 分 词 器 


有 许多 Stanford NLP AP| 类 支持 分 词 ， 举 例如 下 : 
- PTBTokenizer 类 


: DocumentPreprocessor 类 


` 流水 线 的 StanfordCoreNLP 类 


后 面 每 个 例子 都 将 使 用 之 前 定义 的 paragraph 字 符 捉 。 
2.4.2.1 PTBTokenizer 类 的 使 用 


这 一 分 词 器 模仿 了 Penn Treebank 3 (PTB) 分 词 器 (http://www.cis.upenn.edu/~treebank/) 。 它 在 其 选项 和 Unicode 支 
持 方 面 不 同 于 PTB。PTBTokenizerr 类 支持 几 个 较 早 的 构造 器 ， 但 是 建议 使 用 三 参数 的 构造 器 。 此 构造 器 使 用 一 个 Reader 对 象 、 一 


个 LexedToken-Factory<T> 参 数 以 及 一 个 指定 所 需 选 项 的 字符 串 。 


LexedTokenFactory 的 接口 由 CoreLabelTokenFactory 和 WordTokenFactory 类 实现 。 前 者 可 以 保留 一 个 词 项 开始 和 结束 的 
字符 位 置 ， 而 后 者 仪 仪 得 到 没有 任何 位 置信 息 的 字符 串 词 项 。 黑 认 使 用 WordTokenFactory 类 。 下 面 我 们 将 演示 这 两 个 类 的 使 用 。 


CorelabelTokenFactory 类 的 使 用 如 下 。 用 paragraph 创 建 了 一 个 StringReader 的 实例 ， 最 后 的 参数 (这 个 例子 中 是 null) 是 
所 需 选 项 。1terator 接 口 由 PTBTokenizer 类 实现 ， 通 过 hasNext 和 next 万 法 展示 出 每 个 词 项 。 
PTBTokenizer ptb = new PTBTokenizer( 
new StringReader(paragraph), new 
CoreLabelTokenFactory(),null); 
while (ptb.hasNext()) | 
System.out.println(ptb.next()); 


所 得 结果 如 下 : 


then 


reflect 


使 用 WordTokenFactory 类 可 以 得 到 相同 结果 ， 如 下 所 示 : 


PTBTokenizerptb = new PTBTokenizer( 


new StringReader(paragraph), new WordTokenFactory(), null); 


CoreLabelTokenFactory 类 的 强大 功能 在 于 选项 参数 。 这 些 ; 
及 英 陈 英语 或 美式 天 语 拼写 的 判断 。 选 项 的 清单 可 以 参 
"http://nlp.stanford.edu/nlp/javadoc/javanlp/edu/stanford/nlp/process/PTBTokenizer.html, 


些 选 项 可 以 控制 分 词 器 的 行为 ， 比 如 引号 的 处 理 、 省 略 词 的 补 全 以 


下 面 的 代码 通过 CoreLabelTokenFactory 变 量 ctf 和 一 个 选项 “invertible=true” 创建 了 PTBTokenizer 对 象 ， 这 一 选项 可 以 令 


我 们 获得 一 个 CoreLabel 对 象 ， 并 通过 它 获 得 每 个 词 项 首尾 的 位 置 : 


CoreLabelTokenFactory ctf = new CoreLabelTokenFactory(); 
PTBTokenizer ptb - new PTBTokenizer( 


new StringReader(paragraph),ctf,"invertible-true"); 
while (ptb.hasNext()) { 


CoreLabel cl = (CoreLabel)ptb.next(); 
System.out.println(cl.originalText() + " (" + 
cl.beginPosition() + "-" + cl.endPosition() + ")"); 


所 得 结果 如 下 ， 括 号 内 的 数字 表示 词 项 的 首尾 位 置 : 


Let (0-3) 

's (3-5) 

pause (6-11) 

, (11-12) 

and (14-17) 
then (18-22) 
reflect (23-30) 
. (30-31) 


2.4.2.2 DocumentPreprocessor 类 的 使 用 


DocumentPreprocessor 类 可 用 于 对 输入 流 分 词 ， 另 外 ， 它 实现 了 |terable 接 口 ， 更 易于 遍历 分 词 序列 。 这 一 分 词 器 支持 简单 
的 文本 和 XML 数据 的 分 词 。 


我 们 使 用 StringReader 类 的 实例 来 前 述 这 一 过 程 : 
Reader reader = new StringReader (paragraph); 
然后 实例 化 DocumentPreprocessor 类 得 到 一 个 实例 : 


DocumentPreprocessor documentPreprocessor = 
new DocumentPreprocessor (reader); 


/ 


DocumentPreprocessor 类 实现 了 lterable<java.util.List<HasWord> > 的 接口 。HasWord 接 口 包含 两 个 处 理 单词 的 方法 : 
setWord 和 word 方 法 。 后 者 返回 字符 串 类 型 的 单词 。 在 下 面 的 代码 中 ，DocumentPreprocessor 类 将 输入 文本 分 隅 成 句子 并 仓储 
在 列表 List<HasWord> 中 。lterator 对 象 用 于 提取 一 个 句子 ， 然 后 通过 fori 语 句 列 出 每 个 词 项 : 


Iterator«List«HasWord»» it = documentPreprocessor.iterator(); 
while (it.hasNext()) | 

List«HasWord» sentence - it.next(); 

for (HasWord token : sentence) { 


System.out.println(token); 


执行 后 结果 如 下 : 


2.4.2.3 ”流水 线 的 使 用 


我 们 将 用 到 第 1 章 演示 过 的 StanfordCoreNLP 类 ， 然 而 ,我 们 先 使 用 一 个 更 为 简单 的 注释 字符 串 对 paragraph 进 行 分 词 。 如 下 
所 示 ， 创 建 一 个 Properties 对 象 并 分 配 tokenize 和 ssplit 两 个 注释 。tokenize 注 释 指 定 分 词 过 程 ，ssplit 注 释 可 以 分 隔 句子 : 


Properties properties = new Properties(); 
properties.put("annotators", "tokenize, ssplit"); 


接 下 来 创建 了 StanfordCoreNLP 类 和 Annotation 类 : 


StanfordCoreNLP pipeline = new StanfordCoreNLP (properties); 
Annotation annotation = new Annotation (paragraph); 


annotate 方 法 执行 分 词 过 程 ， 然 后 prettyPrint 方 法 列 出 所 有 词 项 : 


pipeline.annotate (annotation); 
pipeline.prettyPrint (annotation, System.out); 


词 项 之 后 列 出 了 各 种 统计 数据 ， 标 记 了 词 项 首尾 的 位 置信 息 ， 如 下 所 示 : 


Sentence #1 (8 tokens): 
Let's pause, 
and then reflect. 


[Text-Let CharacterOffsetBegin=0 CharacterOffsetEnd-3] [Text-'s 
CharacterOffsetBegin-3 CharacterOffsetEnd-5] [Text-pause 
CharacterOffsetBegin-6 CharacterOffsetEnd-11] [Text-, 
CharacterOffsetBegin-11 CharacterOffsetEnd-12] [Text-and 
CharacterOffsetBegin-14 CharacterOffsetEnd-17] [Text-then 
CharacterOffsetBegin-18 CharacterOffsetEnd-22] [Text-reflect 
CharacterOffsetBegin-23 CharacterOffsetEnd-30] [Text-. 
CharacterOffsetBegin-30 CharacterOffsetEnd-31] 


2.4.2.4 LingPipe 分 词 器 的 使 用 


LingPipe 支 持 多 种 分 词 器 ， 本 节 将 说 明 IndoEuropeanTokenizerFactory 类 的 使 用 。 后 几 节 将 演示 LingPipe 支 持 的 其 他 分 词 
器 。 它 的 INSTANCE 成 员 变量 提供 了 Indo-European 分 词 嚣 的 实例 。 其 中 tokenizer 万 法 返回 基于 待 处 理 文本 的 Tokenizer 类 的 实 
例 ， 如 下 所 示 : 


char text[] = paragraph.toCharArray(); 


TokenizerFactory tokenizerFactory - 
IndoEuropeanTokenizerFactory.INSTANCE; 


Tokenizer tokenizer = tokenizerFactory.tokenizer(text, 0, 
text.length); 


for (String token : tokenizer) { 
System.out.printlin(token); 


执行 后 结果 如 下 : 


Let 


这 些 分 词 器 文 持 “正音 ”文本 的 分 词 。 在 下 一 节 中 ， 我 们 将 展示 如 何 训练 一 个 分 词 器 来 应 对 独特 的 文本 。 
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练 分 同 器 进行 文本 分 词 


当 标 准 分 词 器 处 理 文 本 效果 不 佳 时 ， 训 练 一 个 分 词 器 十 分 必要 。 我 们 可 以 创建 一 个 可 以 用 于 分 词 的 模型 ， 而 不 是 写 一 个 传统 的 
分 词 器 。 


我 们 需要 读 取 来 自 一 个 文件 的 数据 并 用 它 训练 一 个 模型 ， 这 些 数据 存储 为 一 系列 由 空格 和 <SPLIT> 变 量 分 隔 的 单词 。 
<SPLIT> 变 量 用 于 提供 识别 词 项 的 更 多 信息 ， 它 有 助 于 识别 数字 之 间 的 中 断 (2023.6) ， 以 及 和 逗号 等 标点 符号 。 我 们 使 用 的 训练 集 
数据 存储 在 文件 training-data.train 中 ， 如 下 所 示 : 


These fields are used to provide further information about how tokens 
should be identified<SPLIT>. 


They can help identify breaks between numbers<SPLIT>, such as 
23.6<SPLIT>, punctuation characters such as commas<SPLIT>. 


所 用 数据 并 不 代表 特别 的 文本 ， 但 它 确实 说 明了 如 何 注释 文本 和 训练 模型 的 过 程 。 


我 们 将 使 用 OpenNLP 中 TokenizerME 类 的 重 载 train 方 法 创建 一 个 模型 ， 最 后 的 两 个 参数 需要 额外 解释 一 下 。 最 大 录 模 型 决定 
了 文本 元 素 之 间 的 关系 。 


我 们 可 以 在 此 之 前 指定 模型 必须 处 理 的 特性 的 数量 。 这 些 特征 可 以 当成 模型 的 各 个 方面 。 友 代 次 数 指 的 是 在 确定 模型 参数 时 ， 
训练 过 程 进行 的 次 数 。 一 些 TokenME 类 的 参数 如 下 : 


参 数 用 处 
String 所 用 语言 的 字符 串 
ObjectStream<TokenSample> ObjectStream 参数 存 有 训练 数据 
boolean 如 果 为 true， 则 忽略 字母 数字 数据 
int 指定 一 个 特征 的 处 理 次 数 
int 训练 最 大 燃 模 型 的 迭代 次 数 


在 下 面 的 例子 中 ， 我 们 先 定义 一 个 BufferedOutputStream 对 象 ， 用 于 存储 新 的 模型 。 示 例 中 使 用 的 几 种 方法 将 生成 异常 ， 通 
过 catch 块 进行 异常 处 理 : 


BufferedOutputStream modelOutputStream = null; 
try { 


} catch (UnsupportedEncodingException ex) { 
// Handle the exception 

| catch (IOException ex) { 
// Handle the exception 


通过 使 用 PlainTextByLinestream 类 创建 Objectstream 类 的 一 个 实例 。 它 使 用 训练 文件 和 字符 编码 方案 作为 构造 器 参数 ， 并 
且 用 来 创建 TokenSample 对 象 的 第 二 个 Objectstream 实 例 。 这 些 对 象 是 包含 词 项 空间 信息 的 文本 : 


ObjectStream«String» lineStream = new PlainTextByLineStream( 
new FileInputStream("training-data.train"), "UTF-8"); 
ObjectStream<TokenSample> sampleStream = 
new TokenSampleStream(lineStream) ; 


PERT ASEAN RAAS trainik, ASENNE, TEAOBSSERHSCE SI. REUBERBATUAXSSUS NiE 57100: 


TokenizerModel model = TokenizerME.train ( 
"en", sampleStream, true, 5, 100); 


下 表 中 详细 给 出 了 train 方 法 的 参数 : 


GE BB € x 
Language code 指定 所 用 的 目 然 语 言 的 字符 串 
Samples 示例 文本 
Alphanumeric optimization 如 果 是 true， 则 跳 过 字母 数字 数据 
Cutoff 一 个 特征 被 处 理 的 次 数 
Iterations 训练 模型 的 迭代 次 数 


接 下 来 的 代码 将 创建 一 个 输出 流 ， 然 后 将 模型 写 进 mymodel.bin 文 件 。 这 样 模型 束 可 以 使 用 了 : 


BufferedOutputStream modelOutputStream = new 
BufferedOutputStream( 


new FileOutputStream(new File("mymodel.bin"))); 
model.serialize (modelOutputStream) ; 


这 里 不 讨论 输出 的 详细 信息 。 然 而 ， 它 基本 上 记录 了 训练 过 程 。 输 出 结果 最 后 一 部 分 已 被 缩 略 ， 因 为 大 部 分 迭代 步骤 被 删除 挥 
了 以 证 省 空间 ， 如 下 所 示 : 


Indexing events using cutoff of 5 


Dropped event F: [p=2, s=3.6,, pl=2, pl num, p2=bok, p1flz23, f1z3, f1 
num, £2=., £2 eos, £12=3.] 

Dropped event F: [p=23, s=.6,, pl=3, pl num, p2=2, p2 num, p21=23, 
plflz3., fl=., fl eos, £2=6, £2 num, f12z.6] 

Dropped event F: [p=23., s=6,, pl=., pl eos, p2=3, p2 num, p21-3., 
plfl=.6, £1=6, fl num, f2z,, £12=6,] 


Computing event counts... done. 27 events 
Indexing... done. 
Sorting and merging events... done. Reduced 23 events to 4. 


Done indexing. 
Incorporating indexed data for training... 
done. 
Number of Event Tokens: 4 
Number of Outcomes: 2 
Number of Predicates: 4 
. . done. 
Computing model parameters 
Performing 100 iterations. 
1: ...loglikelihood=-15.942385152878742 0.8695652173913043 


2 .loglikelihood--9.223608340603953 0.8695652173913043 
3 .loglikelihood--8.222154969329086 0.8695652173913043 
4: ...loglikelihood=-7.885816898591612 0.8695652173913043 
5 .loglikelihood--7.674336804488621 0.8695652173913043 
6: ...loglikelihood--7.494512270303332 0.8695652173913043 


Dropped event T: [p=23.6, s=,, pl=6, pl num, p2-., p2 eos, p21-.6, 
DLE1L=6,5 El, £2-Dbok]l 


7: ...loglikelihood--7.327098298508153 0.8695652173913043 

8: ...loglikelihood--7.1676028756216965 0.8695652173913043 

9: ...loglikelihood--7.014728408489079 0.8695652173913043 
100: ...loglikelihood=-2.3177060257465376 1.0 


我 们 可 以 使 用 如 下 所 示 的 模型 ， 这 和 我 们 在 2.4.1.3 节 中 所 用 方法 相同 。 唯 一 的 区 别 是 所 用 模型 不 同 : 


try { 
paragraph - "A demonstration of how to train a 
tokenizer."; 
InputStream modellIn = new FileInputStream(new File( 
",", "mymodel.bin")); 


TokenizerModel model = new TokenizerModel (modelIn); 
Tokenizer tokenizer - new TokenizerME (model); 
String tokens[] = tokenizer .tokenize (paragraph) ; 


for (String token : tokens) { 
System.out.println(token); 
} catch (IOException ex) { 
ex.printStackTrace(); 


结果 如 下 : 


2.4.4 


分 词 器 的 比较 


A 


demonstration 
of 

how 

to 

train 


下 面 对 几 种 NLP API 的 分 词 器 进行 简要 比较 。 下 表 列 出 了 不 同 分 词 器 对 同一 段 文 本 ( "Let's pause, \nand then reflect." ) 
生成 的 词 项 。 此 外 需 注 意 的 是 ， 输 出 结果 基于 对 类 的 简单 使 用 ， 示 例 中 可 能 不 包含 影响 词 项 生成 情况 的 选项 参数 ， 其 目的 只 是 简单 
地 演示 基于 示例 代码 和 数据 的 预期 输出 类 型 。 


简单 分 词 器 “| 空格 分 词 器 | Tokenizer ME | PTB 分 词 器 | 文本 处 理 器 | IndoEuropean TokenizerFactory 


and | | then | tn | then — | and 
then | | reflect | reflect | — reflect — | then 
reflect | os oe |o sy reflect 


25 ”理解 标准 化 处 理 


标准 化 处 理 是 将 一 组 蛙 词 转换 为 更 统一 的 序列 的 过 程 ， 这 对 于 文本 的 后 续 处 理 非常 有 用 。 将 一 组 蛙 词 转换 成 标准 格式 ， 下 着 其 
他 过 程 才能 够 更 好 处 理 数据 ， 而 不 必 再 处 理 一 些 疑 难 问题 。 例 如 ， 将 所 有 单词 转 损 为 小 写 会 简化 搜索 过 程 。 


标准 化 处 理 可 以 改善 文本 匹配 的 结果 ， 比 如 说 “modem router” 有 多 种 表达 方法 ，“modem and 
router" “modem&router” "modem/router" "modem-router" 都 是 一 个 意思 。 通 过 将 这 些 词 标准 化 为 常见 形式 ， 更 容易 


为 购物 者 提供 正确 的 信息 。 
然而 ， 标 准 化 处 理 也 有 不 利 的 一 面 。 当 字母 大 小 写 很 重要 时 ， 将 其 转换 为 小 写字 和 母 会 降低 搜索 的 可 靠 性 。 


标准 化 处 理 包 括 以 下 几 方 面 : 


. 将 缩写 词 展开 
` 去 除 停 用 词 
` 词 干 化 和 词 形 还 原 


除了 绾 写 词 展开 外 ， 其 他 方法 都 将 一 一 况 明 ， 绾 写 词 展开 类 似 于 去 除 俘 用 司 ， 仪 仪 是 把 缩写 词 用 其 展开 式 代 蔡 。 


2.5.1 转换 为 小 写字 母 


将 文本 转变 为 小 写 是 改善 搜索 结果 的 一 个 较为 简单 的 方法 。 我 们 可 以 使 用 Java 内 string 类 的 toLowerCase 方 法 ， 或 者 使 用 一 些 
NLP 的 API， 比 如 LingPipe 的 LowerCase-TokenizerFactory 类 。toLowerCase 方 法 演示 如 下 : 


String text = "A Sample string with acronyms, IBM, 


+ "and lowercase letters."; 
String result = text.toLowerCase() ; 
System.out.println(result); 


结果 如 下 : 


and UPPER " 


a sample string with acronyms, ibm, and upper and lowercase letters. 


LingPipe 的 LowerCaseTokenizerFactory 类 将 在 本 章 后 面 的 2.5.5 节 进行 说 明 。 


25.2 AER Fi] 


去 除 停 用 词 有 许多 方法 ， 一 个 简单 的 方法 是 创建 一 个 类 来 保 仔 和 删除 停 用 词 ; 另外 ， 一 些 NLP 的 API 提 供 去 除 停 用 词 的 支持 。 
第 一 种 方法 ， 我 们 将 创建 一 个 称 为 stopWords 的 简单 的 类 。 第 二 种 方法 ， 我 们 将 使 用 LingPipe 的 EnglishSstopTokenizerFactory 类 


来 演示 。 


2.5.2.1 创建 一 个 stopWords 类 


去 除 停 用 词 的 过 程 包括 检查 词 项 一 组 ， 与 一 个 停 用 词 的 列表 进行 比较 ， 然 后 从 中 去 除 停 用 词 。 为 了 演示 这 种 方法 ,我 们 按 下 表 


所 示 创 建 一 个 能 够 完成 基本 操作 的 简单 类 : 


构造 器 /方法 
Default constructor 
Single argument constructor 
addStopWord 


removeStop Words 


用 处 
使 用 停 用 词 的 默认 集合 
使 用 存储 在 文件 中 的 俘 用 词 
将 一 个 新 的 俘 用 词 应 加 到 内 部 列表 中 
传人 一 组 单词 并 返回 去 除 停 用 词 后 的 新 的 一 组 单词 


如 下 代码 所 示 ， 创 建 一 个 StopWords 类 ， 声 明了 两 个 实例 变量 。 其 中 defaultSstop-Words 变 量 中 存储 了 默认 的 停 用 词 列 
表 ，HashSet 变 量 stopwords 列 表 用 于 存储 处 理 过 程 中 的 停 用 词 : 


public class StopWords | 


private String[] defaultStopWords = {"i", "a", "about", "an", 


"are" , "as" : 


"he n . "by" y "com" : n for" , "n from" : n how" : 


"n in" P " is " : " on" i "or" ! "that "n , "the LL ; "this" j 
"to" ; "was " F "when" " where" . "who" , "will n ; "with" } > 
private static HashSet stopWords = new HashSet () ; 


之 后 是 类 的 两 个 构造 器 : 


public StopWords() | 
stopWords.addAll(Arrays.asList (defaultStopWords)); 


public StopWords (String fileName) | 
try { 
BufferedReader bufferedreader - 
new BufferedReader (new FileReader(fileName)); 
while (bufferedreader.ready()) | 


stopWords.add(bufferedreader.readLine()); 
| 
DOLO Xception ex 
h (IOE | ) 
ex.printStackTrace(); 


使 用 addStopWord 方 法 可 以 很 方便 地 增加 一 个 单词 : 


public void addStopWord(String word) | 
stopWords.add(word) ; 


removestopwords 方 法 用 于 去 除 停 用 词 ， 它 创建 一 个 ArrayList 来 存储 原始 单词 并 传递 给 方法 。for 循 环 用 来 从 这 个 列表 中 去 除 
停 用 词 。contains 方 法 用 于 确定 提交 的 单词 是 否 是 停 用 词 ， 是 则 删除 。ArrayList 用 于 转换 为 一 列 字符 串 并 返回 。 如 下 所 示 : 


public String[] removeStopWords (String[] words) { 
ArrayList«String» tokens - 
new ArrayList<String>(Arrays.asList (words)); 
for (int i = 0; i « tokens.size(); i++) { 
if (stopWords.contains(tokens.get(i))) | 
tokens.remove (i); 


| 


return (String[]) tokens.toArray ( 
new String[tokens.size()]); 


下 列 代 码 介绍 stopWords 的 使 用 。 首 先 ， 使 用 默认 构造 器 声明 一 个 stopWords 类 的 实例 。 然 后 声明 了 OpenNLP 的 
SimpleTokenizer 类 并 定义 了 示例 文本 ， 如 下 所 示 : 


StopWords stopWords = new StopWords(); 
SimpleTokenizer simpleTokenizer - SimpleTokenizer.INSTANCE; 
paragraph = "A simple approach is to create a class " 

+ "to hold and remove stopwords."; 


将 示例 文本 分 词 并 传递 给 removestopWords 方 法 ， 得 到 新 的 分 词 结果 。 


String tokens[] = simpleTokenizer.tokenize (paragraph) ; 
String list[] = stopWords.removeStopWords (tokens); 
for (String word : list) { 

System.out.println(worgd); 


| 


执行 后 结果 如 下 。 “A” 疫 有 被 去 除 是 因为 它 是 大 写字 母 ， 而 该 类 疫 有 进行 大 小 写 转 换 : 


approach 


create 


class 


hold 


remove 


stopwords 


2.5.2.2 ”使 用 LingPipe 去 除 停 用 词 


LingPipe 的 EnglishStopTokenizerFactory 类 可 以 用 于 识别 、 去 除 停 用 词 ， 这 些 停 用 词 在 http://alias- 
i.com/lingpipe/docs/api/com/aliasi/tokenizer/EnglishStopTokenizerFactory.html 中 可 以 找到 ， 包 括 a、was、but、he、for 


等 
sF o 


factory asm | okenizerFactory ANFAS. fs&FHfactoryZ&fStokenizer75;2:3 541 MAHARA. 首先 我 们 


FSBB— "SY IIBER : 


String paragraph = "A simple approach is to create a class " 
+ "to hold and remove stopwords."; 


接 下 来 ， 基 于 IndoEuropeanTokenizerFactory 类 创建 一 个 TokenizerFactory 的 实例 。 然 后 使 用 factory 作 为 参数 创建 
EnglishStopTokenizerFactory 的 实例 : 


TokenizerFactory factory = 
IndoEuropeanTokenizerFactory.INSTANCE; 


factory - new EnglishStopTokenizerFactory(factory); 


使 用 LingPipe 的 Tokenizer 类 和 factory 的 tokenizer 方 法 对 paragraph 变 量 中 的 文本 进行 处 理 。tokenizer 方 法 需要 一 个 字符 数 
组 、 一 个 起 始 位 置 索引 及 字符 数组 长 度 作 为 参数 。 


Tokenizer tokenizer = factory.tokenizer(paragraph.toCharArray(), 
0, paragraph.length()); 


下 面 的 for 语 句 将 遍历 处 理 后 的 列表 : 


for (String token : tokenizer) | 
System.out.printlin(token); 


结果 如 下 : 


A 


simple 


approach 


create 


class 


hold 


remove 


stopwords 


可 以 看 到 字母 “A” 是 个 停 用 词 ， 但 是 没有 从 词 项 中 删除 。 这 是 因为 停 用 词 询 表 使 用 小 写 的 “a” MREASH "A"O. GRE 
漏 挥 了 这 个 词 。 我 们 将 在 本 章 后 面 2.5.5 节 中 修正 这 个 问题 。 


2.5.3 词 干 化 


找到 一 个 词 的 词 干 需要 去 掉 所 有 前 缀 或 后 经 ， 其 剩 下 的 部 分 则 被 认为 是 词 干 。 识 别 词 干 有 助 于 发 现 相似 的 文本 。 例 如 ， 一 个 搜 
索 任 务 可 能 会 寻找 像 “book” 这 样 的 单词 的 出 现 ， 有 许多 单词 包含 它 ， 比 如 books、booked、bookings 和 bookmark。 识 别 出 
词 干 ， 然 后 查找 它 在 文档 中 是 否 出 现 往往 更 有 效 ， 在 许多 情况 下 ， 这 样 都 可 以 改善 搜索 结果 的 质量 。 


词 干 分 析 器 可 能 产生 一 个 不 是 单词 的 词 干 。 例 如 ， 它 可 能 使 bounties、bounty 和 bountiful 等 单词 具有 相同 的 词 
干 “bounti”， 这 对 搜索 仍然 有 用 。 


词 形 还 原 与 词 干 化 相似 。 这 一 过 程 是 得 到 其 词 元 (可 在 字典 中 找到 的 ) ， 它 对 于 一 些 搜索 同样 有 帮助 。 词 干 化 通 第 被 视 为 一 个 
较为 简单 的 方法 ， 仅 仅 希 望 通过 去 掉 一 个 词 项 的 首尾 部 分 得 到 其 词根 "root" 。 


而 词 形 还 原 可 以 被 认为 是 一 个 较 复 杂 的 方法 ， 目 标 是 得 到 一 个 词 项 的 形态 学 或 词汇 学 上 的 意义 。 比 如 说 ，“having” 的 词 干 


» 


X "hav" mit "have , “was fe “been” 词 干 不 同 ， 但 是 词 元 均 是 “be , 


词 形 还 原 可 以 比 词 干 化 使 用 更 多 的 计算 资源 。 它 们 各 有 其 用 ， 取 决 于 需要 解决 的 问题 。 
2.5.3.1 Porter Stemmer 的 使 用 


Porter Stemmer 是 英文 单 用 的 词 干 分 析 器 ， 其 家 网 主页 为 http://tartarus.org/martin/PorterSstemmer ， 它 通过 五 个 步骤 得 
到 一 个 单词 的 词 干 。 


Apache OpenNLP 1.5.3 中 不 包含 PorterStemmer 类 ， 其 源 代 码 可 
Mhttps://svn.apache.org/repos/asf/opennlp/trunk/opennlp- 
tools/src/main/java/opennlp/tools/stemmer/PorterStemmer.java 处 下 载 ， 并 添加 a 到 你 的 项 目 中 。 


下 面 的 例子 中 我 们 将 向 你 演示 PorterStemmer 类 ， 其 输入 一 组 单词 ， 通 过 创建 PorterStemmer 类 的 实例 及 stem 方 法 对 每 个 单 
词 进行 词 干 化 处 理 : 


String words[] = {"bank", "banking", "banks", "banker", "banked", 
"bankart"}; 


PorterStemmer ps = new PorterStemmer(); 
for(String word : words) { 
String stem - ps.stem(word); 
System.out.println("Word: " + word + " Stem: " + stem); 


执行 结果 如 下 : 


Word: bank Stem: bank 

Word: banking Stem: bank 
Word: banks Stem: bank 
Word: banker Stem: banker 
Word: banked Stem: bank 
Word: bankart Stem: bankart 


Bankart 一 词 通常 与 “lesion” 合 用 ，“Bankart lesion” 是 指 肩 膀 的 一 种 损伤 ， 与 前 面 的 单词 没有 多 大 关系 。 由 此 可 见 ， 提 
取 词 干 时 只 使 用 普通 的 词缀 。 


PorterStemmer 类 其 他 有 用 的 方法 可 见 下 表 : 


AB 法 €? X 
add 将 一 个 char 添加 到 当前 词 干 的 末尾 
stem 无 参数 情况 下 调用 ， 如 果 出 现 不 同 的 词 干将 返回 true 
reset 将 词 干 生成 融 复 原 以 使 用 一 个 不 同 的 单词 


2.5.3.2 ”用 LingPipe 提 取 词 干 


LingPipe 的 PorterStemmerTokenizerFactory 类 用 于 提取 词 干 。 在 下 面 的 例子 中 ， 我 们 仍 使 用 前 一 蔬 的 单 
词 ，IndoEuropeanTokenizerFactory 类 用 来 进行 切 始 分 词 ， 然 后 使 用 Porter Stemmer 对 其 词 干 化 。 类 的 定义 如 下 : 


TokenizerFactory tokenizerFactory = 
IndoEuropeanTokenizerFactory.INSTANCE; 


TokenizerFactory porterFactory - 
new PorterStemmerTokenizerFactory (tokenizerFactory) ; 


接 下 来 定义 一 个 数组 存储 词 干 。 如 下 所 示 ， 我们 仍 使 用 上 一 节 定 义 的 数组 words 分 别处 理 每 一 个 单词 ， 分 词 后 其 词 干 存储 在 
stem 中 ， 最 后 列 出 单词 及 其 词 干 : 


String[] stems = new String[words.length]; 
for (int i = 0; i « words.length; i++) { 
Tokenization tokenizer = new Tokenization(words[i],porterFactory) ; 
stems = tokenizer.tokens(); 
System.out.print("Word: " + words[i]); 
for (String stem : stems) { 
System.out.println(" Stem: " + stem); 
} 


执行 后 结果 如 下 : 


Word: bank Stem: bank 

Word: banking Stem: bank 
Word: banks Stem: bank 
Word: banker Stem: banker 
Word: banked Stem: bank 
Word: bankart Stem: bankart 


介绍 了 使 用 OpenNLP 和 LingPipe 的 Porter Stemmer 的 例子 ， 还 应 当 了 解 一 些 其 他 可 行 的 词 干 分 析 器 ， 比 如 NGrams 和 各 种 概 
算法 混合 方法 。 


2.5.4 ig 


有 许多 NLP 的 API 支 持 词 形 还 原 处 理 ， 这 一 市 我 们 将 说 明 StanfordCoreNLP 和 OpenNLPLemmatizer 这 两 个 类 的 使 用 。 词 形 还 
原 的 目标 是 早 词 的 词 元 ， 词 元 可 以 理解 为 单词 企 字 典 中 的 形式 ， 比 如 “was” 的 词 元 是 “be”。 


2.5.4.1 StanfordLemmatizer 类 的 使 用 
这 里 我 们 用 带 流水 线 的 StanfordCoreNLP 类 演示 词 形 还 原 。 首 先 创建 流水 线 ， 它 带 有 lemma 等 四 个 注释 ， 如 下 所 示 : 


StanfordCoreNLP pipeline; 

Properties props - new Properties(); 
props.put("annotators", "tokenize, ssplit, pos, lemma"); 
pipeline = new StanfordCoreNLP (props); 


这 些 必要 的 注释 功能 如 下 : 


VERE SS TE {F 
tokenize 分 词 
ssplit 4] n] 
pos POS 标注 
lemma i8] EXP Jr 
ner NER 
parse 语法 解析 
dcoref 共 指 消解 


将 Annotation 构 造 器 传 入 paragraph 变 量 并 执行 annotate 方 法 ， 代 人 码 如 下 : 


String paragraph = "Similar to stemming is Lemmatization. " 
+"This is the process of finding its lemma, its form " + 
+"as found in a dictionary."; 

Annotation document - new Annotation(paragraph); 


pipeline.annotate (document); 


现在 我 们 需要 遍历 所 有 句子 及 其 词 项 。Annotation 和 CoreMap 类 的 get 方 法 会 返回 指定 类 型 的 值 。 如 果 没有 指定 类 型 的 值 ， 
它 将 返回 null。 我 们 将 使 用 这 些 类 来 得 到 词 元 的 询 表 。 


首先 ， 返 回 句 子 的 列表 并 处 理 每 个 句子 、 每 个 单词 以 获得 其 词 元 。 句 子 及 词 元 列表 声明 如 下 : 


List«CoreMap» sentences = 
document .get (SentencesAnnotation.class) ; 


List<String> lemmas = new LinkedList<>(); 


id PA-“Mor-eachia is DMB ASH eae, aha: 


for (CoreMap sentence : sentences) { 
for (CoreLabelword : sentence.get (TokensAnnotation.class)) { 
lemmas .add(word.get (LemmaAnnotation.class) ) ; 


System.out.print("["); 
for (String element : lemmas) { 
System.out.print(element + " "); 


| 


System.out.println("]"); 


所 得 结果 如 下 : 


[similar to stem be lemmatization . this be the process of find its lemma 
, its form as find in a dictionary . ] 


与 原始 文本 相 比 ， 可 见 其 处 理 效果 很 不 错 : 


Similar to stemming is Lemmatization. This is the process of finding its 
lemma, its form as found in a dictionary. 


2.5.4.5 OpenNLP 中 词 形 还 原 的 使 用 


OpenNLP 也 支持 JWNLDictionary 类 的 词 形 还 原 ， 该 类 的 构造 器 需 传 入 用 于 识别 词根 的 字典 文件 的 路 径 作 为 参数 。 我 们 使 用 的 
是 普林斯顿 大 学 的 WordNet 字 典 (wordnet.princeton.edu) 。 实 际 上 字典 是 仓储 在 目录 中 的 一 系列 文件 ， 这 些 文件 包含 了 单词 
及 其 词根 的 列表 。 比 如 这 一 节 使 用 的 字典 存放 在 https://code.google.com/pP/Xxssm/downloads/detail? 
name=SimilarityUtils.zip&ccan=2&q=, 


JWNLDictionary 类 的 getLemmas 万 法 传 入 待 处 理 的 单词 ， 以 及 指定 单词 的 POS，POS 对 于 匹配 实际 的 单词 类 型 得 到 精确 的 结 
果 十 分 重要 。 

下 面 的 代码 中 ， 我 们 创建 了 一 个 JWNLDictionary 类 的 实例 ， 字 典 的 位 置 以 \N\dictN\ 结 属 。 代 码 中 还 定义 了 示例 文本 。 构 造 器 还 
可 以 通过 try-catch 块 处 理 IOException 和 JWNLException 异 常 。 


try { 
dictionary = new JWNLDictionary ("...\\dict\\") ; 
paragraph - "Eat, drink, and be merry, for life is but a dream"; 


} catch (IOException | JWNLException ex) 
/ / 


文本 初始 化 之 后 添加 以 下 语句 。 首 先 ， 按 前 文 所 介绍 的 方法 使 用 Whitespace-Tokenizer 类 对 字符 串 进 行 分 词 。 然 后 ， 将 每 个 
词 项 及 一 个 POs 类 型 的 空 字符 串 传 给 getLlemmas 方 法 。 最 后 即 得 到 结 
String tokens[] = 
WhitespaceTokenizer.INSTANCE.tokenize (paragraph); 
for (String token : tokens) { 


String[] lemmas = dictionary.getLemmas(token, ""); 
for (String lemma : lemmas) { 
System.out.println("Token: " + token + " Lemma: " 
+ lemma) ; 


结果 如 下 : 


Token: Eat, Lemma: at 
Token: drink, Lemma: drink 
Token: be Lemma: be 

Token: life Lemma: life 
Token: is Lemma: is 

Token: is Lemma: i 

Token: a Lemma: a 

Token: dream Lemma: dream 


除了 词 项 “is” 得 到 了 两 种 词 元 外 ， 词 形 还 原 过 程 表 现 民 好 。 


“is” 的 第 二 个 词 元 是 无 效 的 。 这 说 明 使 用 正确 的 POS 对 于 分 词 


十 分 重要 。 我 们 可 以 使 用 一 个 或 以 上 的 POS 标 注 作为 参数 传递 给 getLemmas 方 法 。 然 而 ， 这 又 产生 了 另 一 个 问题 : 如 何 确 定 正 确 


的 POS? 这 一 话题 我 们 将 在 第 5 草 详 细 讨 论 。 


下 表 中 简要 列 出 了 一 些 POS 标 注 ， 来 源 


于 https://www .ling.upenn.edu/courses/Fall 2003/ling001/penn treebank pos.html。 完 整 的 列表 可 以 查阅 宾夕法尼亚 大 学 


(Penn) Treebank Tagset (http://www.comp.leeds.ac.uk/ccalas/tagsets/upenn.html) 。 


im = 
JJ 

NN 
NNS 
NNP 
NNPS 
POS 
PRP 
RB 
RP 
VB 
VBD 
VBG 


2.5.5 ”使 用 沅 水 续 进 行 标 准 化 处 理 


fs $ 
形容 词 
单 效 名 词 或 集合 名 词 
复数 名 词 
单数 专 有 名 词 
复数 专 有 名词 
所 有 格 结束 词 
人 称 代 词 
副词 
助词 
动词 ， 基 本 形式 
动词 ， 过 去 式 
动词 ， 动 名 词 或 现在 分 词 


这 一 忆 我 们 将 使 用 流水 线 综合 许多 标准 化 的 方法 。 我 们 扩展 一 下 使 用 LingPipe 去 除 停 用 词 一 节 中 的 例子 ， 添 加 两 个 额外 的 
factory 来 标准 化 文本 : LowerCaseTokenizer-Factory 和 PorterStemmerTokenizerFactory。 


LowerCaseTokenizerFactory 这 个 工厂 添加 在 EnglishStopTokenizerFactory 创 建 之 前 ,而 
PorterStemmerTokenizerFactory 这 个 工厂 添加 在 它 后 面 ， 代 码 如 下 所 示 : 


paragraph = "A simple approach is to create a class " 
+ "to hold and remove stopwords."; 

TokenizerFactory factory - 
IndoEuropeanTokenizerFactory.INSTANCE; 

factory - new LowerCaseTokenizerFactory(factory); 

factory = new EnglishStopTokenizerFactory (factory); 

factory - new PorterStemmerTokenizerFactory(factory); 

Tokenizer tokenizer - 


factory.tokenizer(paragraph.toCharArray(), 0, 
paragraph.length()); 


for (String token : tokenizer) { 
System.out.println(token); 


结果 如 下 所 示 : 


simpl 
approach 
creat 
class 
hold 
remov 


stopword 


我 们 得 到 了 售 用 词 去 除 后 小 写 的 单词 词 干 。 


2.6 本章 小 结 


在 这 一 草 中 ， 我 们 说 明了 文本 分 词 和 标准 化 处 理 的 各 种 方法 。 首 先 基于 Java 核 心 类 (String 类 的 split 方 法 和 stringTokenizer 
类 ) 进行 简单 的 分 词 。 当 我 们 决定 人 茎 用 NLP 的 APIl 类 时 ， 这 些 万 法 十 分 有 用 。 


接 看 我 们 演示 了 使 用 OpenNLP、stanford 和 LingPipe 的 API 进 行 分 词 ， 它 们 的 实现 万 法 及 应 用 的 选项 参数 各 不 相同 ， 最 后 我 
们 对 它们 的 输出 结果 进行 了 简要 对 比 。 


标准 化 处 理 讨 论 了 小 写字 母 转换 、 缩 瑟 展开 、 去 除 集 用 词 、 词 干 化 及 词 形 还 原 等 万 法 ， 我 们 说 明了 如 何 使 用 Java 核 心 类 及 NLP 
的 API| 实 现 这 些 方法 。 


在 下 一 章 ， 我 们 将 说 明 使 用 多 种 NLP 的 API 进 行文 本 断 句 的 问题 。 


第 3 草 MARTA 


文本 断 句 也 称 作 语 句 边界 消 收 (Sentence Boundary Disambiguation, SBD) 。 这 个 过 程 对 于 那些 需要 对 句子 进行 分 析 的 下 
游 NLP 任 务 是 非常 有 用 的 。 例 如 像 词 性 (POS) 和 短语 分 析 这 样 的 一 些 关 于 句子 的 典型 工作 。 


在 这 一 章 中 ， 我 们 将 进一步 深入 了 解 3SBD 的 难点 。 然 后 ， 我 们 将 讨论 一 些 能 够 在 某 些 情况 下 适用 的 核心 Java 方 法 ， 并 且 使 用 各 
种 各 样 的 NLP API 提 供 的 一 些 模型 。 我 们 同时 也 会 对 天 于 语句 检测 模型 的 训练 和 验证 方法 进行 说 明 。 我 们 能 够 增加 一 些 额外 的 规则 
来 提升 它 的 表现 ， 但 是 这 只 在 一 定 程度 上 有 用 。 随 后 ， 训 练 模型 将 处 理 一 般 和 特殊 的 情况 。 本 章 最 后 将 讨论 这 些 模型 和 它们 的 使 用 
方法 。 


3.1 SBD 万 法 


SBD 是 依赖 于 语言 的 ， 并 且 通 党 不 是 很 明确 。 断 句 的 常用 方法 包括 使 用 一 些 规则 或 训练 一 个 模型 。 断 句 的 简单 规则 示例 如 下 ， 
满足 下 列 条 件 ， 则 句子 判断 为 结束 : 


. 文本 被 一 个 句号 、 疑 问号 、 分 号 或 者 感叹 号 终止 。 
. 句号 不 是 在 缩 略 词 或 者 数字 之 后 。 


虽然 这 对 于 很 多 情况 都 能 表现 得 很 好 ， 但 是 并 非 全 部 情况 都 如 此 。 例 如 ， 确 定 缩 略 词 通 弟 并 不 容易 ， 省 略 号 也 许 会 被 误 认 为 是 
句号 。 


大 多 数 的 搜索 引擎 没有 考虑 SBD， 它 们 只 关心 问题 的 词 项 及 其 位 置 。 执 行 数据 提取 的 词性 标注 和 其 他 NLP 任 务 将 频繁 处 理 单 独 
的 句子 。 语 句 边界 检测 能 够 帮助 分 开 那 些 可 能 会 跨 句 的 词语 。 比 如 ， 看 下 面 的 句子 : 


"The construction process was over.The hill where the house was built was short." 


如 果 我 们 搜索 “over the hill" ， 我 们 将 无 意 地 得 到 它 。 


本 章 中 一 些 例子 均 使 用 下 面 的 文本 来 演示 SBD， 这 段 文本 由 3 个 简单 句 及 一 个 较 复杂 的 句子 组 成 : 


private static String paragraph = "When determining the end of sentences " 
+ "we need to consider several factors. Sentences may end with " 
"exclamation marks! Or possibly questions marks? Within " 
"Sentences we may find numbers like 3.14159, abbreviations " 
"Such as found in Mr. Smith, and possibly ellipses either " 


+ + + + 


"within a sentence .., or at the end of a sentence..."; 


3.2 SBD 难 在 何 处 


将 文本 分 解 成 多 个 语句 的 困难 有 以 下 这 些 因 素 : 

-标点 符号 经 党 有 歧义 

- 缩 略 词 种 第 包含 句号 

` 语句 可 能 使 用 引号 进行 相互 谈 套 

. 对 于 更 专门 的 文本 ， 比 如 推 特 (tweet) 和 聊天 对 话 ， 我 们 也 许 需 要 考虑 换行 和 分 名 的 结束 


标点 符号 歧义 现象 可 以 通过 句号 说 明 清楚 ， 通 常 它 被 用 来 标记 语句 结束 ， 然 而 ， 它 也 能 被 使 用 在 其 他 环境 中 ， 包 括 缩 略 词 、 数 
字 、e-mail 地 址 和 和 省略 号 。 其 他 的 标点 字符 ， 比 如 问号 和 感叹 号 ， 也 被 用 在 蔚 套 的 引号 或 专 | 的 文本 (如 文件 中 的 代码 ) 中 。 


使 用 句号 的 一 些 情形 : 
OBRA 
ERB 
“ 缩 略 词 的 结尾 同时 也 是 句子 结尾 
省 略 号 
:以 省 略 号 结束 的 句子 
: 能 套 在 括号 或 引号 中 


对 于 大 部 分 的 语句 ， 我 们 会 在 句子 结尾 遇 到 一 个 句号 ， 这 让 它们 能 够 容易 地 被 辨别 出 来 。 然 而 ， 当 它们 以 一 个 缩 略 词 结束 ， 那 
么 残 比较 难以 辨别 了 。 以 下 是 合 有 市 句号 的 缩 略 词 的 句子 : 


“Mrand Mrs.Smith went to the ball." 
下 面 两 个 句子 以 市 句号 的 缩 略 词 结尾 : 
“He was an agent of the CIA." 


"He was an agent of the C.I.A.” 


在 最 后 一 个 句子 中 ， 缩 略 词 的 每 个 字母 都 跟着 一 个 句号 。 昌 然 这 不 单 见 ， 但 是 也 许 会 出 现 ， 所 以 我 们 不 能 简单 地 忽略 它 


另 一 个 使 得 SBD 困 难 的 问题 是 判断 一 个 词 是 否 是 缩 略 词 。 我 们 不 能 简单 地 把 所 有 大 写字 母 序 列 当 成 缩 略 词 ， 也 许 用 户 不 小 心 使 
用 了 大 与 字母 拼写 一 个 单词 ， 或 者 文本 预 处 理 时 将 所 有 字符 转换 为 小 与 字母 。 同 时 ， 也 有 一 些 缩 略 词 包含 小 写 和 大 写字 和 母 序 询 。 为 
了 处 理 缩 略 词 ， 有 时 使 用 一 个 有 效 的 缩 略 词 表 。 然 而 缩 略 词 通 弟 是 特定 领域 相关 的 。 


N 


上 略 号 进一步 使 得 问题 更 加 困难 。 它 们 也 许 作 为 单个 字符 GI ASCII 0x85 或 者 Unicode (U+2026) ) 或 者 是 以 三 个 连续 名 
号 出 现 。 


另外 ， 还 仔 在 Unicode 水 平 省 略 号 (U+2026) 、 垂 直 和 省略 号 (U+22EE) 及 其 表现 形式 (U+FE19) 。 除 此 之 外 ， 还 仓 在 
HTML 编 码 。 对 于 Java 来 况 ， 使 用 \uFE19。 这 些 编码 的 不 同 说 明了 在 文本 分 析 之 前 需要 进行 民 好 的 预 处 理 。 


下 面 两 个 句子 展示 省 略 号 可 能 使 用 的 情形 : 
"And then there was...one." 


"And the list goes on and on and..." 


第 二 个 句子 以 省 略 号 结束 。 在 一 些 情 况 下 我 们 可 以 按照 MLA 手 册 
(http://www.mlahandbook.org/fragment/public_ index) 的 建议 ， 使 用 括号 来 区 分 省 略 号 ， 将 它 加 在 出 现在 原始 文本 的 省 略 
号 左右 。 如 下 所 示 : 


"The people[...]used various forms of transportation[...] (Young 73) . 
我 们 也 会 找到 从 和 套 在 另 一 个 句子 中 的 子 句 ， 比 如 : 
The man said, "That's not right." 


尽管 感叹 号 和 问号 出 现 的 情形 较 少 ， 它 们 也 会 引起 其 他 的 问题 。 除 了 句 末 外 ， 感 叹 号 还 可 能 出 现在 其 他 地 方 。 一 些 词语 的 情 
形 ， 比 如 Yahoo! ， 作 为 单词 的 一 部 分 。 另 外 ， 多 个 感叹 号 被 用 来 表示 强调 ， 比 如 “Best wishes! ! ”。 这 将 导致 识别 成 多 个 句 
子 ， 事 实 上 它们 并 不 存在 。 


33 ”理解 LingPipe 的 HeuristicSentenceModel 类 的 SBD 规 则 


还 有 其 他 的 规则 可 以 用 来 处 理 SBD。LingPipe 的 HeuristicSentenceModel 类 使 用 一 系列 的 词 项 规则 处 理 SBD。 我 们 在 此 列 出 
它们 ， 用 它们 去 观察 哪些 规则 有 用 。 


这 个 类 使 用 三 个 词 项 集合 和 两 个 标记 去 协助 处 理 : 
` 可 能 的 结束 : 这 是 那些 能 作为 句子 最 后 一 个 词 的 词 集 。 
不 可 能 的 倒数 第 二 : 这 些 短语 不 能 作为 句子 的 倒数 第 二 个 词 。 
不 可 能 的 开始 : 这 个 短语 集 包 含 那些 不 能 作为 句子 开始 的 短语 。 
` 括号 匹配 : 这 个 标记 意味 着 一 个 句子 要 直到 匹配 到 所 有 的 括号 才能 终止 。 


. 强制 最 后 的 边界 : 这 个 指定 了 输入 流 中 必须 被 当 作 句 子 终止 符 的 最 后 一 个 词 项 ， 即 使 并 不 是 一 个 可 能 的 结 


括号 匹配 包括 () 和 [。 然 而 ， 如 果 文 本 是 畸形 的 ， 这 个 规则 将 失效 。 默 认 词 集 列 在 下 表 中 : 
可 能 的 结束 不 可 能 的 倒数 第 二 不 可 能 的 开始 
任何 单个 字母 在 括号 
: 个 人 和 职业 头衔 、 地 位 等 
ws. BS. S 
| 
(2 ) 
可 能 的 结束 不 可 能 的 倒数 第 二 不 可 能 的 开始 
). 时 间 、 月 份 等 


美国 的 政党 » 
美国 的 州 (not ME or IN) " 


RE Cm E}, 
装运 条 款 


地 址 缩写 


虽然 LingPipe 的 HeuristicSentenceModel 类 使 用 了 这 些 规则 ， 但 其 他 SBD 工 具 的 方法 中 也 可 使 用 它们 。 


SBD 的 局 发 式 方法 也 许 并 不 总 比 其 他 技术 精确 。 然 而 ， 它 们 能 够 在 一 个 特定 领域 中 使 用 ， 并 且 有 速度 快 和 消耗 内 存 少 的 优点 。 
3.4 简单 的 Java SBD 


有 时 ， 文 本 很 简单 ，Java 核 心 支持 就 已 经 足够 。 有 两 种 方法 进行 SBD: 使 用 正则 表达 式 和 使 用 Breaklterator 类 。 我 们 将 分 别 


说 明 这 两 种 方法 。 
3.4.1. 使 用 正则 表达 式 


正则 表达 式 比 较 难 以 理解 。 人 入 单 的 表达 式 通 常 不 是 
SBD 的 时 候 ， 这 个 是 正则 表达 式 的 一 个 限制 。 


本题， 但 当 它 们 变 得 更 复杂 的 时 候 ， 可 读 性 残 降 低 了 。 当 


Hg 
Zx 


试 使 用 它 去 进行 


我 们 将 提出 两 个 不 一 样 的 正则 表达 式 。 第 一 个 表达 式 对 于 某 些 问题 域 来 说 非常 简单 。 第 二 个 比较 复杂 ， 并 且 有 更 好 的 效果 。 


在 这 例子 中 ， 我 们 建立 了 一 个 正则 表达 式 类 去 匹配 句号 、 间 号 和 感叹 号 。String 类 的 split 方 法 被 用 来 把 文本 分 隔 成 句子 。 


String simple = "[.?!]"; 
String[l splitString = (paragraph.split(simple)); 
for (String string : splitString) | 


System.out.println(string); 


输出 如 下 : 


When determining the end of sentences we need to consider several factors 


Sentences may end with exclamation marks 


Or possibly questions marks 
Within sentences we may find numbers like 3 
14159, abbreviations such as found in Mr 


Smith, and possibly ellipses either within a sentence .., or at the end 
of a sentence... 


split 方 法 不 管 句 号 是 数字 还 是 缩 略 词 的 一 部 分 ， 都 以 此 将 文本 分 开 了 。 


后 面 的 第 二 段 文 本 有 比较 好 的 结果 。 这 个 例子 改 自 http://stackoverflow.com/questions/5553410/regular-expression- 
match-a-sentence， 使 用 了 以 下 的 正则 表达 式 的 Pattern 类 : 


[^.1?N8] [^. 12] * (?: [. 121 (?!['"]?\s|$)[.1?]*)*[.1?]?['"]?(?=\s|$) 
下 面 的 代码 每 行 各 有 注释 : 


Pattern sentencePattern = Pattern.compile( 
"# Match a sentence ending in punctuation or EOS.\n" 


+ "[* 1?\\s] # First char is non-punct, non-ws\n" 

+ "(* 12] * # Greedily consume up to punctuation. \n" 
+ "(?; # Group for unrolling the loop.\n" 

+" LI] # (special) inner punctuation ok if\n" 
+" (21['N"]?2NMXS|$) 8 not followed by ws or EOS.\n" 
+" [^.12?]* # Greedily consume up to punctuation. \n" 
+ ")* # Zero or more (special normal*) \n" 

+ "[.!?]? # Optional ending punctuation. \n" 

+ "['Xm7m]? # Optional closing quote.\n" 

+ "(?=\\s|$)", 


Pattern.MULTILINE | Pattern.COMMENTS) ; 


另 一 种 表示 这 个 正则 表达 陈 的 方法 即 能 够 用 http://regexper.com/ 所 提供 的 工具 生成 。 如 下 图 所 示 ， 这 幅 图 摘 述 了 展示 了 这 个 
正则 表达 式 如 何 工作 : 


negative lookahead 


None of: porc ume ictum EC 
Rus : one of : me one of:| P MM ---4 
— ud l i = : white space | 

e- eq» m —— white space zd 

-— | a i ıı O 
«Qno, ! rd emo AERA 

white space : End of line | 

以 paragraph 文 本 为 例 执行 matcher 方 法 ， 结 果 展 示 如 下 : 
Matcher matcher = sentencePattern.matcher (paragraph); 


while (matcher.find()) { 
System.out.println(matcher.group() ) ; 


输出 如 下 ， 人 句子 的 结束 符号 锐 保 留 ， 但 是 对 于 缩 略 词 仍然 有 很 多 的 问题 : 


When determining the end of sentences we need to consider several 
factors. 


Sentences may end with exclamation marks! 
Or possibly questions marks? 


Within sentences we may find numbers like 3.14159, abbreviations such as 
found in Mr. 


Smith, and possibly ellipses either within a sentence .., or at the end of 
a sentence... 


3.4.2 ”使 用 Breaklterator 类 
Breaklterator 类 能 够 用 来 检测 各 种 各 样 的 文本 边界 ， 比 如 字符 、 单 词 、 句 子 和 行 之 间 。 使 用 不 同 的 方法 创建 如 下 不 同 的 
Breaklterator 类 的 实例 : 
- 字符 使 用 getCharacterInstance 方 法 
单词 使 用 getWordInstance 方 法 
- 句子 使 用 getSentencelInstance 方 法 
. 行使 用 pgetLineInstance 方 法 


检测 字符 的 分 隅 有 时 是 非 钊 重要 的 ， 比 如 ， 当 我 们 需要 处 理 多 个 Unicode 字 符 (MMU) ， 这 个 字符 有 时 由 \u0075 (u) 和 
\u00a8 (7) 组 成 。 这 个 类 将 识别 出 这 些 类 型 的 字符 。 详 情 可 人参 


"https://docs.oracle.com/javase/tutorial/i18n/text/char.html, 


Breaklterator 类 可 以 用 于 判断 句子 结尾 。 它 使 用 一 个 指针 指向 当前 的 边界 ， 提 供 next 和 0previous 万 法 使 指针 在 文本 中 同 后 和 
同 前 移动 。Breaklterator 有 一 个 蛙 独 的 、 受 保护 的 默认 构造 器 。 为 了 获得 Breaklterator 的 实例 来 检测 句子 的 结尾 ， 将 使 用 静态 


(static) 方法 getSentencelnstance， 如 下 所 示 : 


BreakIterator sentencelIterator = 


BreakIterator.getSentenceInstance(); 
同时 还 有 一 个 重 载 版 本 的 方法 。 它 使 用 Locale 实 例 作为 一 个 参数 


Locale currentLocale = new Locale("en", "US"): 
BreaklIterator sentenceIterator = 


BreakIterator.getSentenceInstance(currentLocale); 


PESHI, setText/3; T ERABIBRUXANMBAfVER (iterator) 关联 : 


sentenceIterator.setText (paragraph); 


BreaklteratoriR l| f 3813 SH TAR SAIN. PRK, FBS 下面 的 表格 : 


B ik Fi 处 

first 返回 文本 的 第 一 个 边界 

next 返回 当前 的 边界 的 下 一 个 边界 

previous 返回 当前 边界 的 前 一 个 边界 

DONE 最 后 的 整数 -1 (指示 没有 找到 更 多 的 边界 ) 


为 了 按 顺 序 使 用 迭代 器 ， 用 first 方 法 确定 第 一 个 边界 ， 重 复 使 用 next 方 法 获得 后 续 边 界 。 当 返回 Done 的 时 候 意 味 着 终止 。 这 
一 方法 使 用 前 面 声明 的 sentencelterator 实 例 ， 如 下 所 示 : 


int boundary = sentenceIterator.first(); 
while (boundary != BreakIterator.DONE) | 
int begin - boundary; 
System.out.print (boundary + "-"); 
boundary = sentencelIterator.next ({) ; 
int end = boundary; 
if (end == BreakIterator.DONE) { 
break; 


| 
System.out.println(boundary + " [" 


+ paragraph.substring(begin, end) + "]"); 


执行 后 结果 如 下 : 


0-75 [When determining the end of sentences we need to consider several 
factors. | 


75-117 [Sentences may end with exclamation marks! ] 
117-146 [Or possibly questions marks? ] 


146-233 [Within sentences we may find numbers like 3.14159 , 
abbreviations such as found in Mr. ] 


233-319 [Smith, and possibly ellipses either within a sentence .. , or at 
the end of a sentence..] 


319- 
这 个 结果 对 于 简单 的 句子 起 作用 ， 但 是 不 能 胜任 更 复杂 的 情况 。 


使 用 正则 表达 式 和 Breaklterator 类 都 有 一 定 的 限制 。 它 们 对 于 那些 由 简单 句子 组 成 的 文本 效果 不 错 。 然 而 ， 当 文本 变 得 更 复 
杂 时 ， 最 好 使 用 NLP 的 API 蔡 代 ， 我 们 将 在 下 一 节 介 绍 。 


3.5 使 用 NLP API 


有 许多 文 持 9BD 的 NLP APIl 类 ， 其 中 有 些 是 基于 规则 的 ， 而 其 他 的 模型 已 经 用 常见 和 不 常见 的 文本 训练 好 。 我 们 将 介绍 利用 
OpenNLP、standford 和 LingPipe 的 API 实 现 文 本 断 句 。 


模型 也 可 以 航 训 练 以 更 加 完善 ， 相 天 方法 将 任 3.6 万 进行 襄 明 。 当 处 理 专 | 门 的 〈 如 医药 或 者 法 律 ) 文本 时 ， 需 要 有 一 个 专门 的 


模型 。 


3.5.1 使 用 OpenNLP 


OpenNLP 使 用 模型 进行 SBD。 一 个 SentDetectorME 类 的 实例 将 根据 一 个 模型 文件 创建 ， 通 过 sentDetect 万 法 返回 句子 , 通 
过 sentPosDetect 方 法 返回 位 置信 息 。 


3.5.1.1 fsFBSentenceDetectorM EZ 


通过 SentenceModel 类 从 文件 中 加 载 模型 ， 然 后 创建 一 个 SentenceDetectorME 类 的 实例 ， 随 后 调用 sentDetect 方 法 进行 
SBD。 这 个 方法 返回 一 个 字符 串 数组 ， 其 中 每 一 个 元 素 是 一 个 句子 。 


如 下 面 例子 所 示 ， 用 一 个 try-with-resources 块 来 打开 包含 模型 的 en-sent.bin 文 件 ; JAMES paragraph; 接着 ， (如 
果 有 必要 ) 捕获 各 种 IO 类 型 异 单 ; 最后， 使 用 for-each 语 句 列 出 结 


try (InputStream is = new FileInputStream( 
new File(getModelDir(), "en-sent.bin"))) { 
SentenceModel model = new SentenceModel (is); 
SentenceDetectorME detector - new SentenceDetectorME (model); 
String sentences[] = detector.sentDetect (paragraph); 
for (String sentence : sentences) { 
System.out.println(sentence); 


| 


| catch (FileNotFoundException ex) { 
// Handle exception 

} catch (IOException ex) { 
// Handle exception 


执行 后 ， 我 们 得 到 下 面 的 结 


When determining the end of sentences we need to consider several 
factors. 


Sentences may end with exclamation marks! 
Or possibly questions marks? 


Within sentences we may find numbers like 3.14159, abbreviations such as 


found in Mr. Smith, and possibly ellipses either within a sentence .., or 
at the end of a sentence.. 


可 以 看 到 结果 还 不 错 。 它 抓 住 了 简单 句 和 复 洲 句 。 当 然 ， 它 处 理 文本 也 并 不 忌 是 那么 完美 。 下 面 的 段落 在 一 些 地 方 有 额外 的 空 
格 ， 而 一 些 需 要 空格 的 地 方 缺失 空格 。 这 种 情况 可 能 友 生 在 聊天 会 话 的 分 析 中 : 


paragraph = " This sentence starts with spaces and ends with " 
+ "Spaces . This sentence has no spaces between the next " 
+ "one.This is the next one."; 


当 用 前 面 的 例子 处 理 这 一 文本 时 ， 我 们 得 到 结果 : 


This sentence starts with spaces and ends with spaces 


This sentence has no spaces between the next one.This is the next one. 


第 一 个 句子 的 前 导 空 格 被 删 挥 ， 但 是 结尾 的 空格 没有 删除 。 第 三 个 句子 没有 被 检测 出 ， 并 且 合 并 到 了 第 二 个 句子 中 。 


getSentenceProbabilities 方 法 返回 一 个 doubles 类 型 的 数组 ， 代 表 最 后 使 用 sentDetect 文 本 断 句 的 置信 和 度 。 在 for-each 语 句 
后 增加 下 面 的 代码 ， 然 后 展示 结 


double probablities[] = detector.getSentenceProbabilities(); 
for (double probablity : probablities) { 
System.out.println(probablity); 


0.9841708738988814 
0.908052385070974 
0.9130082376342675 
1.0 


这 些 数 字 反 映 SBD 结 果 的 可 靠 性 极 高 。 
3.5.1.2 ”使 用 setPosDetect 方 法 


SentenceDetectorME 类 的 sentPosDetect 方 法 返回 每 个 句子 的 Span 对 象 。 使 用 前 一 节 同样 的 代码 ， 稍 作 改 变 ，sentDetect 
方法 替代 为 SentPosDetect 方 法 ，for-each 语 句 如 下 所 示 : 


Span spans[] = sdetector.sentPosDetect (paragraph); 
for (Span span : spans) { 
System.out.printlin(span); 


| 


仍然 使 用 原来 的 paragraph 得 到 结果 。Span 对 象 包含 默认 的 toString 方 法 返回 的 位 置信 息 : 


10... 74) 
[75. .116) 
[117..145) 
[146..317) 


Span 类 内 含 一 些 方法 。 下 一 段 代 码 演示 了 getStart 和 getEnd 方 法 的 使 用 ， 可 以 更 清晰 地 看 到 span 对 象 代 表 的 这 些 文本 : 


for (Span span : spans) { 
System.out.println(span + "[" + paragraph.substring ( 
span.getStart(), span.getEnd()) +"]"); 


结果 可 以 看 到 识别 出 的 句子 : 


[0..74) [When determining the end of sentences we need to consider 
several factors.] 


[75..116) [Sentences may end with exclamation marks!] 
[117..145) [Or possibly questions marks?] 


[146..317) [Within sentences we may find numbers like 3.14159, 
abbreviations such as found in Mr. Smith, and possibly ellipses either 
within a sentence ..., or at the end of a sentence...] 


还 有 一 些 有 价值 的 Span 方 法 如 下 表 所 示 : 


方 i a X 


contains 一 个 重 载 的 方法 ， 确 定 是 否 另 一 个 Span WAM AR S| Ree A ERP 
crosses hf RE Xe P] A1 P5 RE RUE 

length 跨度 的 长 度 

startsWith 确定 跨度 是 否 由 目标 跨度 作为 开头 


3.5.2 ”使 用 Stanford API 


Stanford 的 NLP 库 支持 许多 文本 断 句 的 万 法 。 本 市 将 介绍 如 何 使 用 下 面 这 些 类 : 
: PTBTokenizer 

: DocumentPreprocessor 

: Stanford CoreNLP 


虽然 它们 都 能 进行 SBD， 但 具体 方法 各 有 不 同 。 


3.5.2.1 使 用 PTBTokenizer 类 
PTBTokenizer 类 基于 规则 进行 SBD， 并 且 有 许多 分 词 选 项 。 这 个 类 的 构造 器 需要 三 个 参数 : 
一 个 封装 待 处 理 的 文本 的 Reader 类 
一 个 实现 LexedTokenFactory 接 口 的 对 每 
` 一 个 包含 分 词 选项 的 字符 串 
这 些 选项 允许 我 们 指定 文本 、 分 词 器 和 任何 对 于 某 个 特定 的 文本 流 需 要 使 用 的 选项 。 


下 面 的 代码 创建 了 一 个 StringReader 类 的 实例 来 封闭 文本 ， 使 用 了 null 选 项 的 CoreLabelTokenFactory 类 : 


PTBTokenizer ptb = new PTBTokenizer (new StringReader (paragraph), 
new CoreLabelTokenFactory(), null); 


我 们 将 使 用 WordToSentenceProcessor 类 创建 一 个 List 类 的 列表 来 保留 句子 及 其 词 项 。 它 的 process 方 法 根据 PTBTokenizer 
实例 产生 的 词 创建 List 类 的 列表 ， 如 下 所 示 : 


WordToSentenceProcessor wtsp = new WordToSentenceProcessor(); 
List«List«CoreLabel»» sents - wtsp.process(ptb.tokenize()); 


这 个 List 类 的 List 实 例 能 够 用 几 种 方法 展示 出 来 。 下 面 ，List 类 的 toString 方 法 展示 了 由 括号 括 起 来 且 由 逗号 分 隔 的 元 素 的 列 
表 : 


for (List«CoreLabel» sent : sents) | 
System.out.println(sent) ; 


结果 如 下 : 


[When, determining, the, end, of, sentences, we, need, to, consider, 
several, factors, .] 


[Sentences, may, end, with, exclamation, marks, !] 
[Or, possibly, questions, marks, ?] 


[Within, sentences, we, may, find, numbers, like, 3.14159, ,, 
abbreviations, such, as, found, in, Mr., Smith, ,, and, possibly, 
ellipses, either, within, a, sentence, ..., ,, or, at, the, end, of, a, 
sentence, ...] 


另 一 个 方法 可 以 将 每 句 话 按 行 列 出 : 


for (List«CoreLabel» sent : sents) { 
for (CoreLabel element : sent) { 


System.out.print (element + " ") 
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| 


System.out.println(); 


结果 如 下 : 


When determining the end of sentences we need to consider several factors 


Sentences may end with exclamation marks ! 
Or possibly questions marks ? 


Within sentences we may find numbers like 3.14159 , abbreviations such as 
found in Mr. Smith , and possibly ellipses either within a sentence ... , 
or at the end of a sentence ... 


如 果 我 们 仅仅 关心 词 的 位 置 和 句子 ， 可 以 使 用 endPosition 方 法 ， 说 明 如 下 : 


for (List«CoreLabel» sent : sents) { 
for (CoreLabel element : sent) | 
System.out.print (element.endPosition() + " "); 


| 


System.out.println(); 


MITES PARAR. & Thea 1 SCE UE T VERBIS: 


4 16 20 24 27 37 40 45 48 57 65 73 74 
84 88 92 97 109 115 116 
119 128 138 144 145 


152 162 165 169 174 182 187 195 196 210 215 218 224 227 231 237 238 242 
251 260 267 274 276 285 287 288 291 294 298 302 305 307 316 317 


下 列 代 码 可 以 列 出 每 一 个 句子 的 第 一 个 元 素 及 其 索引 : 


for (List«CoreLabel» sent : sents) | 
System.out.println(sent.get(0) + " " 
+ sent.get(0).beginPosition()); 


结果 如 下 : 


When 0 


Sentences /5 
Or 117 
Within 146 


如 果 我 们 关注 句子 最 后 一 个 元 素 ， 可 以 使 用 下 面 的 代码 。 列 表 中 元 素 表示 结束 符 及 其 终止 位 置 : 


for (List«CoreLabel» sent : sents) | 


int size - sent.size(); 
System.out.println(sent.get(size-1) + " " 
+ sent.get(size-1).endPosition()); 


所 得 结果 如 下 : 


. 74 
116 
? 145 
c SLi 


调用 PTBTokenizer 类 的 构造 器 有 许多 的 可 选 选项 。 这 些 选 项 被 包含 在 构造 器 的 第 三 个 参数 中 。 选 项 字符 串 由 i 
组 成 ， 比 如 下 面 所 示 : 


(kai 
dil 
zal 
H 
II 
UT 
iF 
E 


"americanize=true,normalizeFractions=true,asciiQuotes=true". 


一 些 选 项 在 下 表 中 列 出 : 


az 项 合 X 


invertible 用 来 表明 词 和 空 日 待 必须 保留 ， 保 证 原 字符 串 能 够 被 重建 
tokenizeNLs 表明 行 的 结束 必须 作为 一 个 词 

americanize 如 条 为 true， 这 将 把 英国 拼写 重 写 为 美国 拼写 
normalizeAmpersandEntity 将 XML& 记号 转化 为 & 

normalizeFractions 将 分 数字 符 比 如 % 转化 成 长 格式 (1/2 ) 

asciiQuotes 将 引号 字符 转化 成 更 商 单 的 ' 或 "字符 

unicodeQuotes 将 引号 字符 转化 成 U+2018 到 U-201D 的 字符 


下 面 说 明了 这 些 选 项 字符 串 的 使 用 : 


paragraph = "The colour of money is green. Common fraction " 
+ "characters such as 4 are converted to the long form 1/2. " 
+ "Quotes such as "cat" are converted to their simpler form."; 
ptb = new PTBTokenizer( 
new StringReader(paragraph), new CoreLabelTokenFactory(), 
"americanize-true,normalizeFractions-true,asciiQuotes-true"); 
wtsp - new WordToSentenceProcessor(); 


sents = wtsp.process(ptb.tokenize()); 
for (List<CoreLabel> sent : sents) { 
for (CoreLabel element : sent) { 


System.out.print (element + " "); 


| 


System.out.println(); 


结果 如 下 : 


The color of money is green 


Common fraction characters such as 1/2 are converted to the long form 1/2 
Quotes such as " cat " are converted to their simpler form . 


英 式 单词 拼写 colour 农 转化 成 美式 拼写 。 分 数 被 扩展 成 三 个 字符 : 1/2， 在 最 后 一 个 句子 中 ， 论 引号 被 转化 成 它们 的 简单 形 
Bus 


3.5.2.2 ”使 用 DocumentPreprocessor 类 


当 创建 DocumentPreprocessor 类 的 一 个 实例 ， 通 过 传 入 的 Reader 参 数 产 生 一 个 句子 列表 。 它 同样 实现 了 lterable 接 口 ， 使 得 
遍历 这 个 列表 更 简单 。 


在 以 下 的 例子 中 ，paragraph 被 用 来 创建 一 个 StringReader 对 象 ， 并 且 这 个 对 象 被 用 来 实例 化 DocumentPreprocessor: 


Reader reader = new StringReader (paragraph); 
DocumentPreprocessor dp = new DocumentPreprocessor (reader); 
for (List sentence : dp) { 

System.out.println(sentence); 


执行 后 ， 我 们 得 到 下 面 的 结 


[When, determining, the, end, of, sentences, we, need, to, consider, 
several, factors, .] 


[Sentences, may, end, with, exclamation, marks, !] 
[Or, possibly, questions, marks, ?] 


[Within, sentences, we, may, find, numbers, like, 3.14159, ,, 
abbreviations, such, as, found, in, Mr., Smith, ,, and, possibly, 
ellipses, either, within, a, sentence, ..., ,, or, at, the, end, of, a, 
sentence, ...] 


默认 情况 下 ， 用 PTBTokenizer 进 行 分 词 。setTokenizerFactory 方 法 能 用 来 指定 不 同 的 分 词 器 。 下 表 详 细 列 出 了 其 他 可 能 用 到 
的 方法 : 


方 法 目 的 
setElementDelimiter 它 的 参数 指定 一 个 XML UR, RATE HEIR IPS SCAR ZA THE 
setSentenceDelimiter 处 理 带 将 假设 字符 串 参 数 是 一 个 句子 的 分 隅 符 
setSentenceFinalPunc Words 它 的 字符 串 数 组 参数 指定 句子 结束 的 分 隅 符 
setKeepEmptySentences 当 使 用 空白 符 模 型 时 ， 如 果 它 的 参数 为 true， 那么 空 的 句子 将 会 被 保留 


这 个 类 能 够 处 理 纯 广 本 和 XML 文档 。 


为 了 展示 如 何 处 理 XML 文 件 ， 我 们 将 创建 一 个 简单 的 XML 文件 XMLText.xml， 文 件 内 容 如 下 : 


<?xml version="1.0" encoding="UTF-8"?> 

<?xml-stylesheet type="text/xsl"?> 

<document> 

<sentences> 
«sentence id="1">5 

<word>When</word> 
<word>the</word> 
<word>day</word> 
<word>is</word> 
<word>done</word> 


“ward swee wards 


C- WV Mu LL uL OCT WM e UO qn WW Xo LL LA = 


<word>can</word> 
<word>sleep</words> 
<word>.</word> 

</sentence> 

«sentence id="2">s 
<word>When</word> 
<word>the</word> 
<word>morning</word> 
<word>comes</word> 
<word>we</word> 
<word>can</word> 


<word>wake</word> 
<word>.</word> 

</sentence> 

«sentence id="3"s 
<word>After</word> 
<word>that</word> 
<word>who</word> 
<word>knows</word> 
<word>.</word> 

</sentence> 

</sentences> 
</document> 


我 们 将 再 次 使 用 上 个 例子 的 代码 ， 将 文件 著 换 为 XMLText.xml 文 件 ， 使 用 Docu-mentPreprocessor.DocType.XML 作 为 
DocumentPreprocessor 类 构造 器 的 第 二 个 参数 ， 如 下 所 示 。 这 会 指定 处 理 器 将 文本 当 作 XML 文本 处 理 。 另 外 ， 我 们 将 指定 仪 处 


理 <sentence> 标 注 中 的 元 素 : 


try | 
Reader reader - new FileReader("XMLText.xml"); 


DocumentPreprocessor dp - new DocumentPreprocessor( 
reader, DocumentPreprocessor.DocType.XML); 
dp.setElementDelimiter("sentence"); 


for (List sentence : dp) { 
System.out.printin(sentence) ; 


| 


} catch (FileNotFoundException ex) { 
// Handle exception 


这 个 例子 的 结果 如 下 : 


[When, the, day, is, done, we, can, sleep, .] 
[When, the, morning, comes, we, can, wake, .] 


[After, that, who, knows, .] 


使 用 Listlterator 可 以 使 结果 更 简洁 : 


for (List sentence : dp) | 


ListIterator list = sentence.listIterator(); 
while (list.hasNext()) { 
System.out.print(list.next() + " "); 
System.out.printin(); 
结果 如 下 : 


When the day is done we can sleep . 
When the morning comes we can wake . 
After that who knows . 


如 果 我 们 没有 指定 一 个 元 素 分 隔 符 ， 每 个 单词 将 呈现 如 下 : 


3.5.2.3 ”使 用 StanfordCoreNLP 类 


StanfordCoreNLP 类 用 ssplit 注 释 支 持 文 本 断 句 。 在 下 面 的 例子 中 ， 使 用 了 tokenize 和 和 lssplit 注 释 。 创 建 了 一 个 流水 线 对 象 ， 并 
且 玉 用 annotate 方 法 : 


Properties properties = new Properties(); 
properties.put("annotators", "tokenize, ssplit"); 


StanfordCoreNLP pipeline - new StanfordCoreNLP (properties); 
Annotation annotation = new Annotation (paragraph); 
pipeline.annotate (annotation); 


结果 包含 很 多 信息 。 第 一 行 的 结果 如 下 所 示 : 


Sentence #1 (13 tokens): 


When determining the end of sentences we need to consider several 
factors. 


[Text=When CharacterOffsetBegin=0 CharacterOffsetEnd-4] 
[Text-determining CharacterOffsetBegin-5 CharacterOffsetEnd-16] 
[Text-the CharacterOffsetBegin-17 CharacterOffsetEnd-20] 
[Text-end CharacterOffsetBegin-21 CharacterOffsetEnd-24] [Text-of 
CharacterOffsetBegin-25 CharacterOffsetEnd-27] [Text-sentences 
CharacterOffsetBegin-28 CharacterOffsetEnd-37] [Text-we 
CharacterOffsetBegin-38 CharacterOffsetEnd-40] [Text-need 
CharacterOffsetBegin-41 CharacterOffsetEnd-45] [Text-to 
CharacterOffsetBegin-46 CharacterOffsetEnd-48] [Text-consider 
CharacterOffsetBegin-49 CharacterOffsetEnd-57] [Text-several 
CharacterOffsetBegin-58 CharacterOffsetEnd-65] [Text-factors 
CharacterOffsetBegin=66 CharacterOffsetEnd-73] [Text-. 
CharacterOffsetBegin-73 CharacterOffsetEnd-74] 


此 外 我 们 还 能 使 用 xmlPrint 方 法 ， 它 生成 XML 格 式 的 结果 ， 能 够 比较 容易 提取 感 兴趣 的 信息 。 这 个 方法 如 下 所 示 ， 它 需要 我 们 
处 理 |OException 异 常 : 


try | 
pipeline.xmlPrint(annotation, System.out); 


|) catch (IOException ex) | 
// Handle exception 


部 分 结果 如 下 : 


<?xml version="1.0" encoding="UTF-8"?> 
<?xml-stylesheet href-"CoreNLP-to-HTML.xsl" type="text/xsl"?> 
<root> 
«document > 
«sentences» 
«sentence id="1"> 
«tokens» 
«token id-2"1"» 
<word>When</word> 
<CharacterOffsetBegin>0</CharacterOffsetBegin> 
<CharacterOffsetEnd>4</CharacterOffsetEnd> 
</token> 


«token id="34">s 
<word>...</word> 
«CharacterOffsetBegin»316«/CharacterOffsetBegin» 
<CharacterOffsetEnd>317</CharacterOffsetEnd> 
</token> 


</tokens> 
</sentence> 
</sentences> 
</document > 
</root> 


3.5.3 ”使 用 LingPipe 


LingPipe 使 用 类 的 层次 结构 进行 SBD， 如 下 图 所 示 。 其 搬 层 是 AbstractS9entence-Model 类 ， 它 主要 的 方法 是 一 个 重 载 的 


boundarylndices 广 法。 这 个 方法 返回 一 个 界限 系 引 的 整数 数组 ， 每 个 元 素 代 表 一 个 句子 边界 。 


HeuristicSentenceModel 


AbstractSentenceModel 


IndoEuropeanSentenceModel MedlineSentenceModel 


从 这 个 类 派生 出 HeuristicSentenceModel 类 。 这 个 类 用 到 3.3 节 中 讨论 的 可 能 的 结束 、 不 可 能 的 倒数 第 二 和 不 可 能 的 开始 词 
项 。 


IndoEuropeanSentenceModel 和 MedlineSentenceModel 类 都 是 从 HeuristicSentenceModel 类 派生 出 ， 它 们 已 经 分 别 用 责 
语 和 专业 医学 文本 训练 过 。 下 面 我 们 说 明 一 下 这 两 个 类 。 


3.5.3.1 使 用 IndoEuropeansSentenceModel 类 


IndoEuropeanSentenceModel 类 是 针对 英文 文本 的 。 它 的 构造 器 带 有 两 个 参数 ， 分 别 指定 : 


- 最 后 一 个 词 项 是 否 必 为 停 用 词 


默认 的 构造 器 没有 强制 最 后 一 个 词 项 必须 是 停 用 词 或 者 必须 括号 匹配 。 这 个 句子 模型 必须 和 一 个 分 词 器 一 起 使 用 。 我 们 将 使 用 
IndoEuropeanTokenizerFactory 类 的 默认 构造 器 来 达到 这 个 目的 ， 如 下 所 示 : 


TokenizerFactory TOKENIZER FACTORY- 
IndoEuropeanTokenizerFactory.INSTANCE; 


SentenceModel sentenceModel = new IndoEuropeanSentenceModel () ; 
构造 一 个 分 词 器 ， 并 调用 tokenize 方 法 来 填充 这 两 个 列表 : 


List«String» tokenList = new ArrayList<>(); 
List«String» whiteList = new ArrayList<>() ; 
Tokenizer tokenizer- TOKENIZER FACTORY.tokenizer( 
paragraph.toCharArray(),0, paragraph.length()); 
tokenizer.tokenize(tokenList, whiteList); 


boundarylndices 万 法 返回 一 个 整数 的 边界 索引 数组 。 这 个 方法 需要 两 个 包 合 词 项 和 空格 的 String 数 组 参数 。tokenize 万 法 使 
用 两 个 List， 这 意味 着 我 们 需要 将 List 转 换 成 等 价 的 数组 形式 ， 如 下 所 示 : 


String[] tokens new String[tokenList.size()]; 


String[] whites = new String[whiteList.size()]; 
tokenList.toArray (tokens); 
whiteList.toArray (whites); 


我 们 可 以 使 用 boundarylndices 方 法 来 展示 列 出 这 些 索 引 : 


int[] sentenceBoundaries- 
sentenceModel.boundaryIndices(tokens, whites); 
for(int boundary : sentenceBoundaries) | 


System.out.println (boundary); 


结果 如 下 : 


为 了 显示 实际 的 句子 ， 我 们 将 使 用 下 面 的 代码 。 空 格 索引 和 词 项 相差 1: 


int start = 0; 
for(int boundary : sentenceBoundaries) | 
while(start«-boundary) | 


System.out.print(tokenList.get(start) 
+ whiteList.get (start+1)); 
start++; 


| 


System.out.println(); 


结果 如 下 : 


When determining the end of sentences we need to consider several 
factors. 


Sentences may end with exclamation marks! 


Or possibly questions marks? 


不 平 的 是 ， 它 遗失 了 最 后 一 个 句子 。 这 是 因为 最 后 一 个 句子 以 省 略 号 结尾 。 如 果 我 们 在 后 面 增 加 一 个 句号 ， 我 们 将 得 到 这 样 的 
e 


When determining the end of sentences we need to consider several 
factors. 


Sentences may end with exclamation marks! 
Or possibly questions marks? 


Within sentences we may find numbers like 3.14159, abbreviations such as 
found in Mr. Smith, and possibly ellipses either within a sentence .., or 
at the end of a sentence... 


3.5.3.2 ”使 用 SentenceChunker 类 
一 个 可 行 的 方法 就 是 使 用 SentenceChunker 类 进行 SBD。 这 个 类 的 构造 器 需要 一 个 TokenizerFactory 对 象 和 一 个 
SentenceModel 对 象 ， 如 下 所 示 : 


TokenizerFactory tokenizerfactory = 
IndoEuropeanTokenizerFactory.INSTANCE; 


SentenceModel sentenceModel = new IndoEuropeanSentenceModel(); 


SentenceChunker 实 例 使 用 tokenizer 工 厂 和 句子 实例 来 创建 : 


SentenceChunker sentenceChunker = 


new SentenceChunker (tokenizerfactory, sentenceModel); 


SentenceChunker 类 通过 chunk 方 法 实现 Chunker 接 口 。 这 个 方法 返回 一 个 实现 Chunking 接 口 的 对 象 。 这 个 对 象 通过 一 个 字 
和 从 序列 (CharSequence) 指定 文本 的 “ 语 块 ”。 


chunk 万 法 使 用 一 个 字符 数组 和 数组 内 这 引 来 指定 文本 的 哪些 部 分 需要 被 处 理 。 返 回 的 Chunking 对 象 如 下 所 示 : 


Chunking chunking = sentenceChunker. chunk ( 
paragraph.toCharArray(),0, paragraph.length()); 


我 们 使 用 Chunking 对 象 有 两 个 目的 。 首 先 ， 我 们 将 使 用 它 的 chunkset 方 法 返回 一 个 chunk 对 象 的 集合 。 然 后 我 们 将 获得 一 个 
包含 所 有 人 句子 的 字符 串 : 


Set«Chunk» sentences = chunking.chunkSet () ; 


String slice - chunking.charSequence().toString(); 


一 个 Chunk 对 象 存 储 语句 边界 的 字符 偏 移 量 。 我 们 将 使 用 它 的 start 和 和 end 万 法 结合 切片 展示 句子 ， 如 后 面 展 示 。 每 个 元 素 


sentence 保 仔 了 语句 的 边界 。 我 们 使 用 这 些 信息 显示 切片 中 的 每 一 个 句子 : 


for (Chunk sentence : sentences) 
System.out.println("[" + slice.substring(sentence.start(), 


sentence.end()) + "]"); 
下 面 是 结果 。 然 而 ， 它 在 遇 到 以 省 略 号 结束 的 句子 时 仍然 会 出 现 问题 。 所 以 在 文本 处 理 之 前 ， 在 最 后 一 个 句子 的 后 面 加 了 一 个 


[When determining the end of sentences we need to consider several 


factors.] 
[Sentences may end with exclamation marks!] 


[Or possibly questions marks?] 


[Within sentences we may find numbers like 3.14159, abbreviations such as 


found in Mr. Smith, and possibly ellipses either within a sentence .., or 


at the end of a sentence...] 

里 然 IndoEuropeanSentenceModel 类 对 于 英语 文本 来 说 还 不 错 ， 但 对 于 专业 文本 也 许 不 管用 。 我 们 将 演示 一 个 训练 过 的 可 
用 于 处 理 医学 文本 的 类 (MedlineSentenceModel 类 ) 的 使 用 。 
3.5.3.3 ”使 用 MedlineSentenceMode| 类 


LingPipe 语 句 模 型 使 用 MEDLINE， 它 包含 很 多 生物 医学 文献 ， 以 XML 格 式 存储 ， 并 由 美国 国家 医学 图 书馆 维护 


(http://www.nlm.nih.gov/) 。 


LingPine 使 用 它 的 MedlineSentenceModel 类 进行 SBD。 这 个 模型 已 经 用 MEDLINE 数 据 训练 过 。 它 使 用 简单 文本 ， 并 将 它 分 
成 词 项 和 空格 。MEDLINE 模 型 可 用 于 文本 断 句 。 


在 下 一 个 例子 中 ， 我 们 将 使 用 一 个 从 http://www.ncbi.nIm.nih.gov/pmc/articles/PMC3139422/ 获 取 的 段落 来 演示 这 个 模型 
的 使 用 ， 如 下 : 


paragraph = "HepG2 cells were obtained from the American Type 
Culture " 

"Collection (Rockville, MD, USA) and were used only until " 
"passage 30. They were routinely grown at 37°C in Dulbecco's " 
"modified Eagle's medium (DMEM) containing 10 $ fetal bovine " 
"Serum (FBS), 2 mM glutamine, 1 mM sodium pyruvate, and 25 " 
"mM glucose (Invitrogen, Carlsbad, CA, USA) in a humidified " 
"atmosphere containing 5$ CO2. For precursor and 13C-sugar " 
"experiments, tissue culture treated polystyrene 35 mm " 


"dishes (Corning Inc, Lowell, MA, USA) were seeded with 2 " 


+ + + + + + + + 


"x 106 cells and grown to confluency in DMEM."; 
TARBES T SentenceChunkerZeBy, $n E—TBrznBBRE, Ael SECETHSSFH f MEDLINESentenceModelzZs: 


TokenizerFactory tokenizerfactory - 
IndoEuropeanTokenizerFactory.INSTANCE; 
MedlineSentenceModel sentenceModel - new 
MedlineSentenceModel(); 
SentenceChunker sentenceChunker - 
new SentenceChunker (tokenizerfactory, 
sentenceModel); 
Chunking chunking = sentenceChunker.chunk( 
paragraph.toCharArray(), 0, paragraph.length()); 
Set<Chunk> sentences = chunking.chunkSet(); 
String slice - chunking.charSequence().toString(); 
for (Chunk sentence : sentences) { 
System.out.println("[" 
+ Slice.substring(sentence.start(), 
sentence.end() ) 
+ "]"); 


结果 如 下 : 


[HepG2 cells were obtained from the American Type Culture Collection 
(Rockville, MD, USA) and were used only until passage 30.] 


[They were routinely grown at 37?C in Dulbecco's modified Eagle's medium 
(DMEM) containing 10 % fetal bovine serum (FBS), 2 mM glutamine, 1 mM 
sodium pyruvate, and 25 mM glucose (Invitrogen, Carlsbad, CA, USA) in a 
humidified atmosphere containing 5% CO2.] 


[For precursor and 13C-sugar experiments, tissue culture treated 
polystyrene 35 mm dishes (Corning Inc, Lowell, MA, USA) were seeded with 
2 x 106 cells and grown to confluency in DMEM.] 


当 用 医学 文本 执行 时 ， 这 个 模型 将 比 其 他 模型 有 更 好 的 表现 。 


3.6 “训练 文本 断 句 模型 


我 们 将 使 用 一 个 OpenNLP 的 SentenceDetectorME 类 来 说 明 训 | 练 过 程 。 此 类 有 一 个 静态 train 万 法 ， 使 用 文件 中 的 示例 语句 。 
该 万 法 返回 一 个 通 弟 序列 化 为 一 个 文件 的 模型 ， 供 以 后 使 用 。 


模型 使 用 特别 的 标注 数据 来 确定 句子 结 来 位置。 通常 ， 需 要 一 个 大 文件 来 提供 训练 目的 的 样本 。 部 分 文件 用 来 训练 ， 剩 下 的 用 
来 在 模型 训练 后 对 其 进行 验证 。 


OpenNLP 使 用 的 训练 文件 每 行 由 一 个 句子 组 成 。 通 常 ， 至 少 需要 10 ~ 20 个 句子 样本 来 避免 错误 。 为 了 说 明 这 个 过 程 ， 我 们 使 
用 文件 sentence.train， 它 是 《Twenty Thousand Leagues under the Sea) (Jules Verne) 一 书 的 第 5 章 ， 该 书 可 
从 http://www.gutenberg.org/files/164/164-h/164-h.htm#chap05 找 到 |。 


AAA 


FileReader 对 象 用 来 打开 文件 ， 这 个 对 象 被 用 作 PlainTextByLineStream 构 造 器 的 参数 。 输 出 流 包含 文件 每 一 行 的 每 一 个 字符 
囊 ， 它 作为 SentenceSampleStream 构 造 器 的 参数 ， 将 句子 的 字符 品 转 换 成 SentenceSample 对 象 ， 这些 对 象 存 储 每 个 句子 开始 的 
索引 。 代 码 如 下 ， 语 句 被 包含 在 一 个 try 块 中 ， 以 便 处 理 异常 : 


try 4 
ObjectStream«String» lineStream = new PlainTextByLineStream( 


new FileReader("sentence.train")); 


ObjectStream«SentenceSample» sampleStream 
- new SentenceSampleStream(lineStream); 


) catch (FileNotFoundException ex) { 
// Handle exception 

) catch (IOException ex) { 
// Handle exception 


接 下 来 ， 像 下 面 这 样 使 用 train 方 法 : 


SentenceModel model = SentenceDetectorME.train("en", 
sampleStream, true, 
null, TrainingParameters.defaultParams()); 


所 得 结果 是 一 个 训练 好 的 模型 。 这 个 方法 的 参数 详情 见 下 表 : 


$ H 2 X 
"en" 指定 文本 的 语言 是 喘 语 
sampleStream 训练 文本 流 
true 指定 是 否 应 该 使 用 所 示 结 束 标记 
null 一 个 缩 略 词 词典 
TrainingParameters.defaultParams() 指定 使 用 默认 训练 参数 


在 下 惠 代码 中 ,创建 了 一 个 OutputStream， 并 用 它 来 保存 模型 到 modeFile 文 件 中 ， 可 以 使 这 个 模型 在 其 他 应 用 中 重复 利 


OutputStream modelStream = new BufferedOutputStream( 
new FileOutputStream("modelFile")); 
model.serialize(modelStream); 


RU T. ASHES, MAARIS SS. AMARAS, HARIR, 


Indexing events using cutoff of 5 


Computing event counts... 


Indexing... done. 


Sorting and merging events... 


Done indexing. 
Incorporating indexed data 


done. 


Number of Event Tokens: 
Number of Outcomes: 
Number of Predicates: 


. . done. 
Computing model parameters 


Performing 100 iterations. 


1: loglikelihood=-64 
a loglikelihood=-31. 
3: loglikelihood--26 
4: loglikelihood--24 
5s loglikelihood--22 
6: loglikelihood--21. 
T3 loglikelihood--20 
8: loglikelihood--19 
a loglikelihood--18 
10 loglikelihood=-17 
99: 
100: 
3.6.1 ”使 用 训练 好 的 模型 


for training... 


63 


2l 


.4626877920749 
11084296202819 
.418795734248626 
.327956749903198 
.766489585258565 
46379347841989 
.356036369911394 
.406935608514992 
.58725539754483 
.873030559849326 


loglikelihood--7.214933901940582 
loglikelihood--7.183774954664058 


如 下 所 示 ， 我 们 来 使 用 这 个 模型 。 这 是 基于 在 3.5.1.1 节 介绍 的 万 法 。 


done. 93 events 


done. Reduced 93 events to 63. 


0.9032258064516129 

0.9032258064516129 
0.9032258064516129 
0.9032258064516129 
0.9032258064516129 

0.9139784946236559 
0.9139784946236559 
0.9139784946236559 

0.9139784946236559 
0.9139784946236559 


0.978494623655914 
0.978494623655914 


try (InputStream is = new FileInputStream( 
new File(getModelDir(), "modelFile"))) | 
SentenceModel model = new SentenceModel(is); 


SentenceDetectorME detector - new 
SentenceDetectorME (model); 


String sentences[] = detector.sentDetect (paragraph); 
for (String sentence : sentences) { 
System.out.println(sentence); 
) catch (FileNotFoundException ex) { 
// Handle exception 


| catch (IOException ex) | 
// Handle exception 


结果 如 下 : 


When determining the end of sentences we need to consider several 
factors. 


Sentences may end with exclamation marks! Or possibly questions marks? 
Within sentences we may find numbers like 3.14159, 
abbreviations such as found in Mr. 


Smith, and possibly ellipses either within a sentence .. or at the end of 
a sentence... 


这 个 模型 并 没有 很 好 地 处 理 最 后 一 个 句子 ， 它 反映 了 样本 文本 和 模型 使 用 的 文本 的 不 匹配 。 因 此 ， 使 用 相 天 的 训练 数据 非 惠 重 
要 ， 否 则 ， 基 于 这 个 结果 的 下 游 任 务 将 会 遭 珊 。 


3.6.2 ”使 用 SentenceDetectorEvaluator 类 评估 模型 


我 们 保留 了 一 部 分 样本 文件 用 于 评估 ， 因 此 我 们 能 使 用 SentenceDetecorEvaluator 类 评估 模型 。 我 们 更 改 sentence.train 文 
件 ， 提 取 最 后 10 个 句子 放 在 另外 一 个 文件 eval-Sample 中 ， 并 使 用 这 个 文件 来 评估 模型 。 下 面 的 示例 中 ， 我 们 基于 文件 内 容 ， 重 用 


了 lineStream 和 sampleStream 变 量 创建 一 个 SentenceSample 对 象 流 。 


lineStream = new PlainTextByLineStream( 
new FileReader("evalSample")); 
sampleStream - new SentenceSampleStream(lineStream); 


使 用 之 前 创建 的 SentenceDetectorME 类 变量 detector 创 建 一 个 SentenceDetector-Evaluator 类 的 实例 。 构 造 器 的 第 二 个 参 
数 是 一 个 SentenceDetectorEvaluationMonitor 对 象 (此 处 没有 用 到 ) 。 然 后 调用 evaluate 方 法 : 


SentenceDetectorEvaluator sentenceDetectorEvaluator 
= new SentenceDetectorEvaluator(detector, null); 


sentenceDetectorEvaluator.evaluate (sampleStream) ; 


getFMeasure 方 法 将 返回 一 个 FMeasure 类 的 实例 ， 它 提供 了 模型 性 能 的 度量 : 
System.out.println(sentenceDetectorEvaluator.getFMeasure()); 


结果 如 下 。 查 准 率 是 包含 正确 实例 的 比例 ， 召 回 率 反映 了 模型 的 敏感 性 。F 值 是 一 个 综合 查 准 率 和 召回 率 的 得 分 ， 从 本 质 上 反 
映 了 模型 的 工作 性 能 。 在 分 词 和 SBD 任 务 上 ， 最 好 保持 查 准 率 企 90% 以 上 : 


Precision: 0.8181818181818182 


Recall: 0.9 
F-Measure: 0.8571428571428572 


37 “本章 小 结 


我 们 讨论 了 一 些 文 本 断 句 问题 的 难点 所 在 。 间 题 包 括 句 号 用 于 数字 、 缩 略 词 的 场合 。 省 上 略 号 的 使 用 和 肉 入 的 引号 也 都 会 产生 问 


[e 
o 


Java 提 供 了 一 些 判断 句子 结束 的 方法 。 可 以 使 用 正则 表达 式 和 Breaklterator 类 ， 这 些 方 法 对 于 简单 句子 非常 有 用 ， 但 是 它们 
对 那些 稍微 复杂 的 句子 无 能 为 力 。 


本 章 还 介绍 了 各 种 NLP APl。 有 一 些 基于 规则 ， 有 一 些 使 用 模型 。 我 们 也 说 明了 模型 怎样 训练 和 评估 。 


在 下 一 章 ， 你 将 学 到 如 何 进 行人 物 识 别 。 


第 4 草 ”人 物 识别 


T 
his 
出 
(By 


寻找 人 和 物 的 过 程 叫 作 命名 实体 识别 (NER) . SEP (如 人 和 地 名 等 ) 是 那些 有 名 字 、 区 别 于 其 他 的 类 别 ， 常 见 的 实 
括 : 


在 一 个 文档 中 找 出 名 字 、 位 置 以 及 各 类 实体 是 重要 上 且 实 用 的 NLP 任务 。 它 们 在 很 多 地 方 都 有 用 到 ， 比 如 创建 简单 的 搜索 ， 提 问 
处 理 ， 解 析 目 录 ， 文 本 消 收 ， 以 及 寻找 文本 的 舍 义 。 例 如 ， 有 时 候 用 NER 来 判断 属于 一 个 简单 类 别 的 实体 。 通 过 分 类 ， 搜 索 过 程 吏 
能 分 离 这 些 项 目 类 型 。 其 他 NLP 任 务 也 用 到 NER， 比 如 POS 标 注 或 交叉 索引 任务 。 


NER 处 理 涉及 两 种 任务 : 
. 实体 检测 
. 实体 分 类 


实体 检测 和 寻找 文本 中 的 实体 位 置 相关 。 一 旦 被 定位 ， 判 断 发 现 的 实体 所 属 类 别 尤 为 重要 。 完 成 这 两 个 任务 后 ， 其 结果 能 用 于 
解决 其 他 类 似 搜索 和 判断 文本 合 义 之 类 的 任务 。 打 个 比方 ， 从 一 部 电影 或 者 书籍 的 评论 中 识别 名 字 来 帮助 找到 可 能 感 兴趣 的 其 他 电 
影 或 者 书籍 ， 提 取 到 位 置信 息 能 够 帮助 提供 附件 服务 的 参考 信息 。 


4.1. NER 难 在 何 处 


像 很 多 NLP 任务 一 样 ，NER 并 不 那么 简单 。 尽 管 文本 分 词 展 示 出 了 它 的 组 成 元 素 ， 但 理解 这 尝 元 素 是 什么 依然 很 困难 。 语 言 的 
歧义 性 导致 即使 使 用 专 有 名 词 也 不 一 定 能 理解 其 含义 。 例 如 Penny 和 Faith ， 作 为 真实 的 姓名 ， 但 也 可 能 表达 财物 度量 和 信仰 。 同 
样 ， 如 Georgia 可 以 用 来 命名 乡镇 、 行 政 区 和 人 。 


一 些 短语 理解 起 来 很 有 挑战 性 。“ 城 市 会 议 展 色 ” 中 束 包 含有 效 的 实体 。 当 战 知 实体 所 属 错 域 时 ， 实 体 列 表 束 非常 有 用 且 易 于 
实现 NER。 


NER 在 句子 层面 的 应 用 很 典型 ， 一 个 短语 很 容易 跨越 一 个 句子 导致 一 个 实体 识别 错误 。 例 如 ， 下 行 句 子 中 : 
"Bob went south.Dakota went west." 


如 果 忽 视 句 子 的 边界 ， 那 么 我 们 晶 外 地 友 现 南达科他 州 (美国 中 北部 州 ) 这 一 位 置 实体 。 特 别 的 文档 (比如 URL、 邮 箱 地 址 ) 


也 很 难 从 文中 分 离 。 如 果 再 考虑 实体 形式 的 多 样 性 ， 那 么 识别 变 得 更 为 艰难 。 例 如 ， 电 话 号 码 中 使 用 括号 吗 ? 号 码 中 有 没有 使 用 破 
折 号 、 句 号 或 者 一 些 其 他 的 符号 使 其 阳 开 ? 我 们 需要 考虑 国际 电话 号 码 吗 ? 


这 些 因素 市 来 了 对 成 束 的 NER 反 林 的 需求 。 


4.2 NER 的 方法 


有 许多 可 供 选 择 的 NER 方 法 ， 一 些 使 用 正则 表达 式 ， 另 一 些 基 于 预定 义 的 字典 。 正 则 表达 式 有 丰富 的 表达 能 力 ， 能 够 分 离 实 
体 。 实 体 名 字 的 字典 能 和 文本 中 的 词 项 通过 对 比 进行 匹配 。 


另 一 个 单 用 的 NER 方 法 是 使 用 训练 模型 来 检测 实体 的 仔 企 ， 这 些 模 型 依赖 于 所 要 寻找 的 实体 以 及 目标 语言 ， 适 用 于 某 一 个 领域 
的 模型 (如 网 页 ) 可 能 不 适用 于 另 一 个 领域 (如 媒体 新 闻 ) 。 


训练 模型 时 使 用 文本 中 已 识别 出 实体 的 注释 块 。 为 了 测试 训 | 练 模型 的 好 坏 ， 可 以 使 用 以 下 几 个 方法 。 
` 查 准 率 : 数据 中 模型 找到 的 匹配 正确 的 实体 数目 与 找到 的 所 有 实体 数目 的 百分比 。 
| 召回 率 : 找到 的 语料库 中 所 定义 的 实体 所 占 百分比 。 


` 性 能 度量 : 综合 查 准 率 和 召回 率 的 一 种 度量 方法 ， 定 义 为 F1=2X 查 准 率 X 召 回 率 / ( 查 准 率 + 召 回 率 ) 。 


ab 


衡量 模型 好 坏 的 时 候 将 会 用 到 这 些 测 量 方式 。 


NER 也 弟 用 于 实体 识别 和 实体 分 块 。 分 块 是 判断 文本 中 一 些 诸如 名 词 、 动 词 或 者 其 他 成 分 的 分 析 过 程 。 人 们 趋向 于 把 句子 划分 
成 独立 的 部 分 ， 这 些 部 分 形成 一 个 决定 句子 含义 的 结构 。NER 处 理 将 创建 文本 的 跨越 性 实体 ， 例 如 “Queen of England" , JA 
而 ， 在 这 些 跨 越 性 文本 里 有 其 他 类 似 “England” 的 实体 。 


4.2.1 列表 和 正则 表达 陈 


命名 实体 识别 〈 如 专 有 名 词 ) 的 一 种 万 法 是 使 用 “标准 ”实体 和 正则 表达 式 。 标 准 实体 列表 由 一 系列 乡镇 、 通 用 名 、 月 份 或 者 
频繁 引用 的 地 理 位 置 组 成 。 常 用 地 名 表 (gazetteer) ， 是 一 个 包含 配合 地 图 使 用 的 地 理 位 置信 息 ， 能 提供 位 置 相 关 实 体 的 列表 。 
然而 ， 维 护 这 样 的 列表 需要 时 间 。 它 们 也 可 能 用 于 特定 的 语言 和 场景 。 改 动 这 些 列表 很 枯燥 之 味 。4.4.3.2 世 将 说 明 这 个 方法 。 


在 识别 实体 的 时 候 ， 正 则 表达 陈 很 有 用 。 强 大 的 句法 为 很 多 场合 提供 足够 的 灵活 性 来 精确 划分 感 兴趣 的 实体 。 然 而 ， 灵 活性 也 
可 能 导致 难以 理解 和 掌握 。 本 章 将 论述 几 个 正则 表达 式 万 法 。 


42.2 ”统计 分 类 器 


统计 分 类 器 决定 一 个 早 词 是 否 是 一 个 实体 的 开头 、 一 个 实体 的 延续 ， 或 者 不 是 一 个 实体 。 示 例文 本 中 标记 了 分 离 的 实体 。 分 类 
器 能 针对 不 同 问题 领域 用 不 同 数 据 集 来 训练 ， 这 个 方法 的 缺陷 是 需要 有 人 注释 示例 文本 ， 这 需要 人 花费 时 间 ， 另 外 还 和 问题 领域 相 
天 。 


我 们 将 演示 执行 NER 的 几 个 方法 。 首 先 ， 从 解释 正则 表达 式 如 何 用 于 识别 实体 开始 。 


4.3 ”使 用 正则 表达 式 进 行 NER 


正则 表达 式 能 用 来 识别 文献 中 的 实体 。 我 们 将 调查 两 个 常用 的 途径 : 
“ 第 一 个 方法 使 用 Java 支 持 的 正则 表达 式 ， 当 实体 相对 简单 而 且 具 有 统一 形式 时 ， 此 方法 很 有 用 。 
. 第 二 个 方法 使 用 为 特殊 用 途 定 制 的 正则 表达 式 类 。 我 们 将 使 用 LingPipe 的 ResgExChunker 类 说 明 这 一 方法 。 


用 正则 表达 式 的 方式 可 以 利用 前 人 已 研究 出 的 成 果 ， 有 许多 可 用 的 预定 义 和 测 试 过 的 表达 式 的 来 源 ， 
从 http://regexlib.com/Default.aspx 中 能 找到 这 样 一 个 库 。 我 们 将 使 用 这 个 库 中 的 几 个 正则 表达 式 作为 例子 。 


为 了 测试 这 些 方法 的 性 能 ， 大 多 数 例子 中 会 用 到 如 下 文本 : 


private static String regularExpressionText 

= "He left his email address (rgb@colorworks.com) and his " 
"phone number,800-555-1234. We believe his current address " 
"is 100 Washington Place, Seattle, CO 12345-1234. I " 
"understand you can also call at 123-555-1234 between " 
"8:00 AM and 4:30 most days. His URL is http://example.com " 
"and he was born on February 25, 1954 or 2/25/1954."; 


+ + + + + 


4.3.1 使 用 Java 的 正则 表达 式 来 寻找 实体 


为 了 解释 这 些 表达 式 的 使 用 ， 从 几 个 简单 的 例子 开始 。 这 些 例子 以 如 下 声明 开头 。 这 是 为 识别 电话 号 码 类 型 而 设计 的 一 个 简单 
的 表达 式 : 


String phoneNumberRE = "\\d{3}-\\d{3}-\\d{4}"; 


使 用 如 下 代码 来 测试 表达 式 。Pattern 类 的 compile 方 法 接受 一 个 正则 表达 式 并 把 它 编 译 成 Pattern 对 象 。 然 后 它 的 matcher 方 
法 能 执行 目标 文本 ， 返 回 一 个 Matcher 对 象 。 这 个 对 象 允许 我 们 重复 识别 相 匹 配 的 正则 表达 式 : 


Pattern pattern = Pattern.compile (phoneNumberRE) ; 
Matcher matcher - pattern.matcher(regularExpressionText); 
while (matcher.find()) | 
System.out.println(matcher.group() + " [" + matcher.start() 
+ ":" + matcher.end() + "]"); 


当 匹 配 成 功 时 ，find 方 法 将 返回 true。 它 的 group 方 法 返回 匹配 这 个 表达 式 的 文本 。start 和 end 人 方法 提供 匹配 文本 在 目标 文本 
的 位 置 。 


成 后 ， 将 得 到 以 下 结果 : 


dil 


800-555-1234 [68:80] 
123-555-1234 [196:208] 


其 他 的 许多 正则 表达 式 用 法 相近 。 这 些 已 经 在 下 表 中 列 出 。 第 三 询 是 相应 的 正则 表达 了 式 用 在 上 面 的 代码 中 执行 后 的 结果 : 


实体 类 型 正则 表达 式 结果 


Wb(https?|ftp|file|Idap):// 


URL http://example.com [256:274] 


z0-9--& @#/%=~_|] 


邮政 编码 12345-1234[150:160] 

邮箱 [a-zA-Z0-9'. %+-]+@(?:[a-zA-Z0-9-]+\.)+[a-zA-Z]{2,4} | rgb@colorworks.com [27:45] 
| J | | 8:00 [217:221 

时 间 (([0-1]?[0-9])M[2][0-3]):([0-5]?[0-9])C([0-5]?[0-9))? | js sock 
((02[ 13578]|10}12)(-\V/) 

(({1-9])|(O[1-9])|({12]) 

([0-9]?)|(3[01]?))(- NV) 


((19)([2-9])(d (115)/(20) 

([01])(\\d (13)/([8901]) 2/25/1954 
(\\d{1}))|(02[2469]|11)(-\V) [315:324] 
(([1-9})(OL1-9 (12 DXT0- 

9]? GI0]2)) C NV)((19) 

([2-9]) (^d 11 5)(20)([01 ]) 

(Md 15 )1(18901]) (d L1 ))) 


日 期 


我 们 可 能 还 会 用 到 许多 其 他 的 正则 表达 式 。 然 而 ， 这 些 例子 阐述 了 基本 方法 。 像 日 期 正则 表达 式 所 示 那 样 ， 一 些 正则 表达 式 非 


LAE 


id 


正则 表达 式 弟 遗漏 一 些 实体 或 者 把 非 实体 误 认 为 实体 。 例 如 ， 如 果 用 下 述 表 达 陈 代 蔡 文 本 : 


regularExpressionText = 
"(888)555-1111 888-SEL-HIGH 888-555-2222-J88-W3S"; 


执行 代码 将 返回 : 


888-555-2222 [27:39] 


七 遗漏 了 开始 的 两 个 电话 号 码 数字 ， 而 且 把 “区 域 编 号 ” 误 认 为 电话 号 码 。 


我 们 也 可 以 使 用 “|” 操作 符 同 时 搜索 两 个 或 两 个 以 上 的 正则 表达 式 。 在 下面 的 表达 中 ， 三 个 正则 表达 了 式 通 过 这 个 操作 符 组 合 


在 一 起 ， 并 依照 上 述 表 格 中 相应 的 条 目 声明 : 


Pattern pattern = Pattern.compile(phoneNumberRE + "|" 
+ timeRE + "|" + emailRegEx); 


当 使 用 前 面 定义 过 的 原始 regularExpressionText 文 本 执行 时 ， 我 们 得 到 了 以 下 结 


rgob@colorworks.com [27:45] 
800-555-1234 [68:80] 
123-555-1234 [196:208] 
8:00 [217:221] 

4:30 [229:233] 


4.3.2 ”使 用 LingPipe 的 RegExChunker 类 

RegExChunker 类 使 用 分 块 来 寻找 文本 中 的 实体 。 该 类 使 用 一 个 正则 表达 式 来 代表 一 个 实体 。 它 的 chunk 方 法 返回 一 个 与 之 前 
实例 中 所 用 实体 使 用 方法 一 样 的 Chunking 对 象 。 

RegExChunker 类 的 构造 器 接受 三 个 参数 。 

- String: 一 个 正则 表达 式 

‘String: 实体 或 者 目录 的 类 型 

. double: 分 数值 

我 们 将 使 用 一 个 表示 时 间 的 正则 表达 式 来 解释 这 个 类 ， 如 下 所 示 ， 这 个 正则 表达 式 与 4.3.1 节 所 使 用 的 正则 表达 式 相同 。 然 后 


创建 Chunker 实 例 : 


String timeRE = 
"(([0-1]12[0-9]) | ([I21 [0-31)) : ([0-51]? [0-91) (: ([0-5]?[0-9]))?"; 
Chunker chunker - new RegExChunker (timeRE,"time",1.0); 


chunk 方 法 同 displayChunkset 方 法 一 起 使 用 ， 如 下 : 


Chunking chunking = chunker.chunk(regularExpressionText); 
Set<Chunk> chunkSet = chunking.chunkSet(); 
displayChunkSet(chunker, regularExpressionText); 


displayChunkset75;Z8l RAR. chunkSet75;Z3&RIBI—/ T Chunks3eplBSSetf&&. PURARA SE S TA Pe HD 


public void displayChunkSet(Chunker chunker, String text) { 
Chunking chunking - chunker.chunk(text); 
Set<Chunk> set = chunking.chunkSet(); 
for (Chunk chunk : set) | 


System.out.println("Type: " + chunk.type() + " Entity: [" 
+ text.substring(chunk.start(), chunk.end()) 
+ "] Score: " + chunk.score()); 


结果 如 下 : 


Type: time Entity: [8:00] Score: 1.0 
Type: time Entity: [4:30] Score: 1.0495 


此 外 ， 可 以 声明 一 个 简单 的 类 来 封装 其 他 场合 重用 的 正则 表达 式 ， 接 下 来 ， 声 明 TimeRegexChunker 类 ， 它 支持 时 间 实 体 的 
识别 |: 


public class TimeRegexChunker extends RegExChunker { 


private final static String TIME RE - 
"(([0-1]1?[0-91) | ([2] [0-3])) : (I0-51? [0-91) (: C([0-5]? [0-9]))?" ; 


private final static String CHUNK TYPE - "time"; 
private final static double CHUNK SCORE = 1.0; 


public TimeRegexChunker() | 
super(TIME RE,CHUNK TYPE,CHUNK SCORE); 


为 使 用 这 个 类 ， 用 以 下 声明 代 蔡 这 一 书 中 chunker 的 初始 声明 : 


Chunker chunker = new TimeRegexChunker(); 


结果 与 之 前 相同 。 


4.4 使 用 NLP API 


我 们 将 使 用 OpenNLP、Stanford API 和 LingPipe 来 展示 NER 处 理 。 这 三 个 都 提供 了 展 好 的 文本 实体 识别 万 法 。 下 述 声 明 将 用 
作 示 例文 本 说明 这 些 APIl: 


String sentences[] = ("Joe was the last person to see Fred. ", 
"He saw him in Boston at McKenzie's pub at 3:00 where he " 
+ " paid $2.45 for an ale. ", 
"Joe wanted to go to Vermont for the day to visit a cousin who " 
+ "works at IBM, but Sally and he had to look for Fred"); 


4.4.1 使 用 OpenNLP 进 行 NER 


本 节 将 论述 如 何 基于 OpenNLP API 使 用 TokenNameFinderModel 类 进行 NLP， 另 外 ， 还 将 演示 如 何 确定 实体 识别 的 正确 


通常 做 法 是 将 文本 转换 为 一 系列 独立 句子 ， 使 用 一 个 合适 的 模型 来 创建 TokenName-FinderModel 类 的 一 个 实例 ， 然 后 使 用 
find 方 法 来 识别 文本 中 的 实体 。 


以 下 例子 论述 了 TokenNameFinderModel 类 的 使 用 。 实 例 先 针对 一 个 简单 名 再 使 用 复杂 句 。 句 子 如 下 : 
String sentence = "He was the last person to see Fred."; 


我 们 将 分 别 使 用 en-token.bin 文 件 和 en-ner-person.bin 文 件 中 找到 的 模型 作为 分 词 器 以 及 名 字 查 找 器 模型 。 用 如 下 try-with- 
resources 语 句 块 打 开 用 于 这 些 文件 的 InputStream 对 象 : 


try (InputStream tokenStream = new FileInputStream( 


new File(getModelDir(), "en-token.bin")); 
InputStream modelStream - new FileInputStream( 
new File(getModelDir(), "en-ner-person.bin"));) { 


) catch (Exception ex) { 
// Handle exceptions 


在 try 块 中 创建 TokenizerModel 和 Tokenizer 对 象 


TokenizerModel tokenModel = new TokenizerModel (tokenStream) ; 
Tokenizer tokenizer = new TokenizerME(tokenModel); 


接 下 来 ， 使 用 个 人 模型 创建 NameFinderME 类 的 一 个 实例 : 


TokenNameFinderModel entityModel = 
new TokenNameFinderModel (modelStream); 
NameFinderME nameFinder = new NameFinderME (entityModel) ; 


现在 可 以 使 用 tokenize 方 法 进行 文本 分 词 ， 并 使 用 find 方 法 来 识别 文本 中 的 人 。find 方 法 将 使 用 分 词 所 得 String 数组 作为 输 
入 ， 并 返回 如 下 的 Span 对 象 数组 : 


String tokens[] = tokenizer.tokenize(sentence); 
Span nameSpans[] = nameFinder.find(tokens); 


你 可 能 还 记得 在 第 3 章 中 讨论 过 的 Span 类 ， 这 个 类 包含 已 找到 实体 的 位 置信 息 。 实 际 的 字符 串 实 体 仍然 存在 于 tokens 数 组 中 。 


如 下 语句 显示 句子 中 找到 的 人 。 其 位 置信 息 和 人 分 别 显示 在 不 同 的 行 中 : 


for (int i = 0; i < nameSpans.length; i++) | 
System.out.println("Span: " + nameSpans[il.toString()); 
System.out.println("Entity: " 
+ tokens [nameSpans [i] .getStart()]); 


结果 如 下 : 


Span: [7..9) person 
Entity: Fred 


我 们 经 常 和 复杂 句 打 交道 。 为 了 演示 复杂 句 ， 使 用 先前 定义 的 sentences 字 符 串 数组 ， 并 用 以 下 语句 代 蔡 前 面 的 声明 。 逐 句 调 
用 tokenize 广 法， 然后 以 同样 的 方式 列 出 实体 信息 : 


sentences) { 
tokenizer.tokenize(sentence); 


Span nameSpans[] = nameFinder.find(tokens); 
for (int i = 0; i « nameSpans.length; i++) { 
System.out.println("Span: " + nameSpans[i].toString()); 
System.out.println("Entity: 
+ tokens [nameSpans [i].getStart ()]); 


for (String sentence 


String tokens[] - 


| 


System.out.println(); 


结果 如 下 。 由 于 第 二 个 句子 中 不 包含 人 ， 因 此 识别 到 的 两 个 人 中 间 会 多 出 一 行 空 日 : 


Span: [0..1) person 
Entity: Joe 

Span: [7..9) person 
Entity: Fred 


Span: [0..1) person 
Entity: Joe 


Span: [19..20) person 
Entity: Sally 
Span: [26..27) person 
Entity: Fred 


44.1.1 实体 识别 的 准确 度 


TokenNameFinderModel 识 别 文 本 中 实体 的 同时 还 计算 了 实体 识别 的 可 能 性 。 我 们 能 使 用 如 下 行 代码 中 的 probs 方 法 获取 这 
个 信息 。 这 个 方法 返回 一 个 对 应 于 nameSpans 数 组 元 素 的 double 数 组 : 


double[] spanProbs = nameFinder.probs (nameSpans) ; 
[s&FHfind75;z e BiSx T8 8a BI -E-rR, AITERCERJforiS SB E SURE RT: 
System.out.println("Probability: " + spanProbs[i]); 


执行 后 将 得 到 以 下 结果 。 这 个 概率 反映 了 指定 实体 的 置信 度 。 对 第 一 个 实体 来 员 ， 模 型 有 80.5299%6 的 把 握 确 信 “Joe” 是 一 个 
人 : 


Span: [0..1) person 

Entity: Joe 

Probability: 0.8052914774025202 
Span: [7..9) person 

Entity: Fred 

Probability: 0.9042160889302772 


Span: [0..1) person 

Entity: Joe 

Probability: 0.9620970782763985 
Span: [19..20) person 

Entity: Sally 

Probability: 0.964568603518126 
Span: [26..27) person 

Entity: Fred 

Probability: 0.990383039618594 


4.4.1.2 ”使 用 其 他 实体 类 型 


OpenNLP 支 持 以 下 列表 中 列 出 的 不 同 的 库 。 这 些 模型 能 从 http://opennlp.sourceforge.net/models-1.5/ 下 载 。 前 缀 en 说 明 
默认 语言 为 磷 语 ，ner 表 示 用 于 NER 的 模型 。 


英语 查找 模型 文件 名 
Location name finder model en-ner-location.bin 
Money name finder model en-ner-money.bin 
Organization name finder model en-ner-organization.bin 
Percentage name finder model en-ner-percentage.bin 
Person name finder model en-ner-person.bin 
Time name finder model en-ner-time.bin 


如 果 要 为 使 用 一 个 不 同 的 模型 文件 而 修改 语句 ， 可 以 参考 以 下 例句 : 


InputStream modelStream - new FileInputStream( 
new File(getModelDir(), "en-ner-time.bin"));) { 


当 使 用 en-net-money.bin 模 型 时 ， 先 前 代码 行 中 的 tokens 数 组 索引 必须 增加 1， 和 否则 返回 值 都 是 美元 符号 。 
下 表 展 示 了 各 类 模型 的 结果 。 


模 型 输 dH 
Span: [4..5) location 
Entity: Boston 
Probability: 0.8656908776583051 
Span: [5..6) location 


en-ner-location.bin 


Entity: Vermont 
Probability: 0.9732488014011262 


Span: [14..16) money 
en-ner-money.bin Entity: 2.45 
Probability: 0.7200919701507937 


Span: [16..17) organization 
en-ner-organization.bin Entity: IBM 
Probability: 0.9256970736336729 


| , The model was not able to detect time in 
en-ner-time.bin | 
this text sequence 


示例 文本 不 能 查找 时 间 实 体 ， 说 明 这 个 模型 不 足以 确定 文本 中 找到 的 实体 是 时 间 |。 


4.4.1.3 “处理 多 种 实体 类 型 


我 们 也 能 同时 处 理 多 种 实体 类 型 。 这 涉及 在 循环 中 创建 一 个 基于 各 模型 的 NameFinderME 类 的 实例 ， 逐 句 应 用 模型 并 记录 找 
到 的 实体 。 


我 们 将 用 下 面 的 实例 解释 这 个 处 理 过 程 。 它 需要 重 写 之 前 的 try 块 以 便 在 块 中 创建 Inputstream 实 例 ， 如 下 : 


try { 
InputStream tokenStream 


new File(getModelDir(), "en-token.bin")); 
TokenizerModel tokenModel = new TokenizerModel (tokenStream) ; 
Tokenizer tokenizer = new TokenizerME (tokenModel) ; 


new FileInputStream( 


) catch (Exception ex) | 
// Handle exceptions 


| 


try 块 中 定义 了 一 个 记录 模型 文件 名 的 字符 串 数 组 。 如 下 所 示 ， 使 用 人 、 地 理 位 置 以 及 组 织 这 三 个 模型 : 


String modelNames[] = {"en-ner-person.bin", 
"en-ner-location.bin", "en-ner-organization.bin"}; 


创建 一 个 ArrayList 实 例 来 保存 友 现 的 实体 : 


ArrayList«String» list = new ArrayList(); 


使 用 for-each 语 句 一 次 加 载 一 个 模型 ， 然 后 创建 一 个 NameFinderME 类 的 实例 : 


for(String name : modelNames) { 
TokenNameFinderModel entityModel = new TokenNameFinderModeli ( 


new FilelnputStream(new File(getModelDir(), name))); 
NameFinderME nameFinder = new NameFinderME (entityModel); 


先前 我 们 并 没有 识别 所 找到 的 实体 具体 来 目 哪 个 句子 ， 但 这 并 不 难 实现 ， 只 需要 使 用 一 个 简单 的 for 语 句 代 蔡 for-each 语 句 来 
奶 蹊 句子 的 率 引 。 如 下 例 所 示 ， 在 前 例 基 础 上 使 用 整 型 变量 index 来 保留 句子 ， 人 否则， 代码 运行 结果 和 之 前 一 样 : 


for (int index = 0; index < sentences.length; index++) { 
String tokens[] = tokenizer.tokenize (sentences [index] ) ; 
Span nameSpans[] = nameFinder.find(tokens) ; 
for(Span span : nameSpans) { 
list.add("Sentence: " + index 
+ " Span: " + span.toString() + " Entity: " 


+ tokens[span.getStart()]); 


随后 列 出 找到 的 实体 : 


for(String element : list) { 
System.out.println(element); 


结果 如 下 : 


Sentence: Span: [0..1) person Entity: Joe 


Sentence: Span: [7..9) person Entity: Fred 
Sentence: Span: [0..1) person Entity: Joe 
Sentence: Span: [19..20) person Entity: Sally 
Sentence: Span: [4..5) location Entity: Boston 


Span: [5..6) location Entity: Vermont 


0 
0 
2 
2 

Sentence: 2 Span: [26..27) person Entity: Fred 
1 
Sentence: 2 
2 


Sentence: Span: [16..17) organization Entity: IBM 


4.4.2 ”使 用 Stanford API 进 行 NER 


我 们 将 论述 用 于 NER 的 CRFClassifier 类 。 这 个 类 可 以 实现 马尔 可 夫 链 条 件 随 机 场 (CRF) 序列 模型 。 


为 了 解释 CRFClassifier 类 的 使 用 ， 我 们 先 声明 分 类 器 文件 字符 串 ， 如 下 所 示 : 


String model = getModelDir() + 
"\\english.conll.4class.distsim.crf.ser.gz"; 
然后 使 用 模型 创建 分 类 器 


CRFClassifier«CoreLabel» classifier = 
CRFClassifier.getClassifierNoExceptions (model); 


classify 方 法 输入 值 为 一 个 表示 竺 处 理 文本 的 字符 串 。 因 此 为 使 用 sentences 文 本 ， 我 们 需要 把 它 转换 为 一 个 简单 的 字符 串 : 


String sentence = ""; 
for (String element : sentences) { 
sentence += element; 


然后 对 文本 应 用 classify 方 法 : 


List«List«CoreLabel»» entityList = classifier.classify(sentence); 


返回 CoreLabel 对 象 众多 List 实 例 中 的 一 个 。 返 回 对 象 是 一 个 包含 另 一 个 列表 的 列表 ， 被 包含 的 列表 是 CoreLabel 对 象 的 一 个 
List 实 例 ，CoreLabel 类 表示 一 个 市 有 附加 信息 的 词 。“ 内 部 ”列表 包含 这 毕 词 的 列表 。 在 下 述 代 码 行 中 的 for-each 语 句 外 部 ， 引 
用 变量 internalList 表 示 文 本 中 的 一 个 句子 。 在 每 个 for-each 语 句 内 展示 了 内 部 列表 中 的 每 个 词 。word 方 法 返回 单词 ， 同 时 get 方 
法 返回 单词 的 类 型 。 然 后 列 出 单词 及 其 类 型 : 


for (List«CoreLabel» internalList: entityList) { 
for (CoreLabel coreLabel : internalList) | 
String word = coreLabel.word(); 
String category - coreLabel.get( 
CoreAnnotations.AnswerAnnotation.class); 
System.out.println(word + ":" + category); 


部 分 结果 如 下 。 由 于 所 有 单词 都 需要 显示 ， 因 此 有 所 删 减 ，O 代 表 “ 其 他 ”类 型 : 


Joe: PERSON 


the:O 


last To 


see:0 


Fred:PERSON 


a FK 


look:0O 
for:O 


Fred:PERSON 


HT WVSERATABAXBUERIS, BUA MBAS printing, ixe&S3ll ESSERE, RRB Meee 


lj: 
Ie 


| 


if (!"O".equals(category)) | 
System.out.println(word + ":" + category); 


现在 结果 简单 多 了 : 


Joe :PERSON 
Fred:PERSON 
Boston:LOCATION 
McKenzie:PERSON 
Joe:PERSON 
Vermont: LOCATION 


IBM:ORGANIZATION 
Sally:PERSON 
Fred:PERSON 


44.3 ”使 用 LingPipe 进 行 NER 


本 章 前 面 的 4.3 节 论述 了 LingPipe 中 正则 表达 式 的 使 用 。 这 里 ， 我 们 将 论述 命名 实体 模型 和 ExactDictionaryChunker 类 如 何 用 
于 NER 分 析 。 


4.4.3.1 ”使 用 LingPipe 的 命名 实体 模型 


LingPipe 有 一 些 可 以 和 chunking 一 起 使 用 的 命名 实体 模型 。 这 些 文件 由 一 个 序列 化 的 从 一 个 文件 中 读 出 的 对 象 组 成 ， 然 后 应 
用 于 文本 。 它 们 实现 Chunker 接 口 ，chunking 过 程 生 成 一 系列 能 对 感 兴趣 的 实体 进行 识别 的 chunking 对 象 。 


下 表 列 出 了 一 组 NER 模 型 ， 这 些 模型 能 从 http://alias-i.com/lingpipe/web/models.htmI 下 载 : 


类 型 x f 


| | ne-en-news-mucó. 
English News MUC-6 
AbstractCharLmRescoringChunker 


English Genes ne-en-bio-genetag.HmmChunker 
English Genomics GENIA ne-en-bio-genia.TokenShapeChunker 


我 们 将 使 用 文件 ne-en-news-muc6.AbstractCharLmRescoringChunker 中 的 模型 说 明 这 个 类 的 使 用 方法 。 


如 下 所 示 ， 首 先 ， 我 们 以 try-catch 块 处 理 异 剃 。 打 开 这 个 文件 并 使 用 Abstract-Externalizable 类 的 静态 readObject 方 法 来 创 
建 一 个 Chunker 类 的 实例 。 该 方法 能 读 取 序列 化 模型 : 


try { 
File modelFile = new File(getModelDir(), 
"ne-en-news-muc6.AbstractCharLmRescoringChunker"); 
Chunker chunker - (Chunker) 
AbstractExternalizable.readObject (modelFile); 


) catch (IOException | ClassNotFoundException ex) { 
// Handle exception 


Chunker 和 Chunking 接 口 提供 了 处 理 文本 的 语 块 集合 的 方法 。 它 的 chunk 万 法 返回 一 个 实现 Chunking 实 例 的 对 象 。 如 下 所 
示 为 文本 里 每 个 句子 中 找到 的 语 块 : 


for (int i = 0; i < sentences.length; ++i) { 
Chunking chunking = chunker.chunk(sentences[il); 
System.out.printlin("Chunking=" + chunking); 


结果 如 下 : 


Chunking=Joe was the last person to see Fred. : [0-3:PERSON@-Infinity, 
31-35:ORGANIZATION@-Infinity] 


Chunking=He saw him in Boston at McKenzie's pub at 3:00 where he paid 
$2.45 for an ale. : [14-20:LOCATION@-Infinity, 24-32:PERSON@-Infinity] 


Chunking=Joe wanted to go to Vermont for the day to visit a cousin who 
works at IBM, but Sally and he had to look for Fred : [0-3:PERSON@- 
Infinity, 20-27:ORGANIZATION@-Infinity, 71-74:ORGANIZATION@-Infinity, 
109-113 :ORGANIZATION@-Infinity] 


另外 ， 我 们 能 使 用 Chunk 类 中 的 方法 从 所 示 信 息 中 提取 特定 的 信息 片段 。 用 如 下 for-each 语 句 代 蔡 前 面 的 语句 。 本 章 前 面 


4.3.2 节 已 经 论述 了 这 个 displayChunkSet 方 法 : 


for (String sentence : sentences) 
displayChunkSet (chunker, sentence); 


ERU R. AMARRA Se PLE AY SESS. 


Type: PERSON Entity: [Joe] Score: -Infinity 

Type: ORGANIZATION Entity: [Fred] Score: -Infinity 
Type: LOCATION Entity: [Boston] Score: -Infinity 
Type: PERSON Entity: [McKenzie] Score: -Infinity 
Type: PERSON Entity: [Joe] Score: -Infinity 

Type: ORGANIZATION Entity: [Vermont] Score: -Infinity 
Type: ORGANIZATION Entity: [IBM] Score: -Infinity 
Type: ORGANIZATION Entity: [Fred] Score: -Infinity 


4.4.3.2 f&FHExactDictionaryChunkerzé 


ExactDictionaryChunker 类 提供 了 一 个 简单 方法 来 创建 实体 及 其 类 型 的 字典 。 这 个 字典 能 用 于 文本 中 寻找 实体 及 其 类 型 。 巴 
使 用 一 个 MapDictionary 对 象 来 仓储 实体 ， 然 后 根据 这 个 字典 使 用 ExactDictionaryChunker 类 来 提取 语 块 。 


AbstractDictionary 接 口 支 持 实 体 、 类 别 和 分 数 的 基本 操作 。 这 里 的 分 数 用 作 匹 配 处 理 。MapDictionary 和 TrieDictionary 类 
是 AbstractDictionary 的 两 个 接口 ，TrieDictionary 类 使 用 一 个 字符 字典 树 结构 存储 信息 。 这 种 万 法 占用 更 少 内 存 ， 我 们 将 以 
MapDictionary 类 为 例 。 


为 了 解释 这 个 方法 ， 我 们 以 一 个 MapDictionary 类 的 声明 开头 : 
private MapDictionary«String» dictionary; 


典 包含 了 我 们 想 找 到 的 实体 。 使 用 initializeDictionary 方 法 对 模型 进行 初始 化 。 这 里 使 用 的 DictionaryEntry 构 造 器 接受 


\ x 
2 
4} 


- Sting: 实体 名 
String: 实体 类 型 
: Double: 代表 实体 的 分 数 


确定 是 人 否 匹 配 时 会 用 到 分 数 ， 声 明 一 部 分 实体 ， 然 后 添加 a 到 字典 。 


private static void initializeDictionary() | 

dictionary = new MapDictionary<String>() ; 
dictionary.addEntry ( 

new DictionaryEntry<String>("Joe","PERSON",1.0)); 
dictionary.addEntry ( 

new DictionaryEntry«String»("Fred","PERSON",1.0)); 
dictionary.addEntry ( 

new DictionaryEntry<String>("Boston","PLACE",1.0)); 
dictionary.addEntry ( 

new DictionaryEntry«String»("pub","PLACE",1.0)); 
dictionary.addEntry ( 

new DictionaryEntry<String>("Vermont","PLACE",1.0)) ; 
dictionary.addEntry ( 

new DictionaryEntry<String>("IBM", "ORGANIZATION",1.0)) ; 
dictionary.addEntry ( 

new DictionaryEntry<String>("Sally","PERSON",1.0)) ; 


ExactDictionaryChunker 实 例会 使 用 这 个 字典 。ExactDictionaryChunker 类 参数 说 明 如 下 : 
- Dictionary<String>: 一 个 包含 实体 的 字典 
. TokenizerFactory: chunket 使 用 的 一 个 分 词 器 
- boolean: 车 为 ttue，chunket 返 回 所 有 匹配 的 值 
- boolean: 车 为 ttue， 匹 配 内 容 区 分 大 小 写 


匹配 内 容 允 许 重 晋 。 例 如 ， 短 语 “ 第 一 国家 银行 ” (The First National Bank) ， 银 行 实体 能 独立 使 用 ， 也 能 和 短语 中 的 其 他 
成 分 配合 使 用 ， 第 三 个 参数 决定 是 否 返 回 所 有 的 匹配 值 。 


下 列 代 码 中 ， 字 上 典 进 行 了 初始 化 。 然 后 我 们 使 用 印 欧 语系 的 分 词 器 创建 一 个 ExactDictionaryChunker 类 的 实例 ， 这 里 返回 所 
有 的 匹配 值 ， 并 忽略 词 项 的 大 小 写 : 


initializeDictionary(); 
ExactDictionaryChunker dictionaryChunker 
- new ExactDictionaryChunker (dictionary, 
IndoEuropeanTokenizerFactory.INSTANCE, true, false); 


逐 句 使 用 dictionaryChunker 对 象 。 如 以 下 代码 所 示 ， 我 们 将 使 用 4.3.2 节 所 提 到 的 displayChunkSet 方 法 : 


for (String sentence : sentences) | 
System.out.println("\nTEXT=" + sentence); 
displayChunkSet (dictionaryChunker, sentence) ; 


执行 完 ， 将 得 到 以 下 结果 : 


TEXT=Joe was the last person to see Fred. 
Type: PERSON Entity: [Joe] Score: 1.0 
Type: PERSON Entity: [Fred] Score: 1.0 


TEXT-He saw him in Boston at McKenzie's pub at 3:00 where he paid $2.45 
for an ale. 


Type: PLACE Entity: [Boston] Score: 1.0 
Type: PLACE Entity: [pub] Score: 1.0 


TEXT-Joe wanted to go to Vermont for the day to visit a cousin who works 
at IBM, but Sally and he had to look for Fred 


Type: PERSON Entity: [Joe] Score: 1.0 

Type: PLACE Entity: [Vermont] Score: 1.0 
Type: ORGANIZATION Entity: [IBM] Score: 1.0 
Type: PERSON Entity: [Sally] Score: 1.0 
Type: PERSON Entity: [Fred] Score: 1.0 


效果 很 不 错 ， 但 需要 很 大 的 精力 创建 包含 大 量词 汇 的 字典 。 


4.5 训练 模型 


我 们 将 使 用 OpenNLP 来 论述 如 何 训练 一 个 模型 。 训 练 文件 必须 满足 以 下 要 求 : 
“ 包含 区 分 实体 边界 的 标注 
. 每 行 一 个 句子 


使 用 文件 名 为 en-ner-person.train 的 模型 文件 : 


<START:person> Joe «END» was the last person to see <START:person> 
Fred «END». 


He saw him in Boston at McKenzie's pub at 3:00 where he paid $2.45 for 
an ale. 


«START:person» Joe «END» wanted to go to Vermont for the day to visit 
a cousin who works at IBM, but «START:person» Sally «END» and he had 
to look for «START:person» Fred «END». 


示例 中 的 几 个 方法 都 能 抛 出 异常 信息 。 上 面 的 这 些 语句 将 放 入 如 下 的 try-with-resource 块 中 ， 同 时 创建 模型 的 输出 流 : 


try (OutputStream modelOutputStream = new BufferedOutputStream( 
new FileOutputStream(new File("modelFile")));) { 


} catch (IOException ex) | 


// Handle exception 


在 try-with-resource 块 内 ， 使 用 PlainTextByLineStream 类 创建 OutputStream<String> 对 象 。 这 个 类 的 构造 器 调用 
FilelnputStream 实 例 ， 并 把 每 一 行 作为 一 个 String 对 象 返 回 。en-ner-person.train 文 件 用 作 输 入 文件 ， 像 这 里 展示 的 一 样 ，UTF- 
8 是 所 使 用 的 编码 序列 : 


ObjectStream«String» lineStream = new PlainTextByLineStream( 
new FileInputStream("en-ner-person.train"), "UTF-8"); 


lineStream 对 象 包含 用 标注 的 文本 里 描写 的 实体 的 数据 流 。 这 些 需 要 转换 为 用 于 训 | 练 模型 的 NameSample 对 象 。 这 个 转换 由 
如 下 显示 的 NameSampleDataStream 类 完成 。 一 个 NameSample 对 象 记录 了 文中 已 友 现 实体 的 名 字 : 


ObjectStream«NameSample» sampleStream = 
new NameSampleDataStream(lineStream) ; 
通过 如 下 程序 执行 train 方 法 : 


TokenNameFinderModel model = NameFinderME.train( 
"en", "person", sampleStream, 
Collections.«String, Object»emptyMap(), 100, 5); 


下 表 详 细 显 示 了 这 个 方法 的 参数 : 


"en" 语言 
"person" 实体 类 型 
sampleStream 采样 数据 
null 资源 

100 迭代 的 次 数 
5 截止 条 件 


然后 模型 序列 化 到 一 个 输出 文件 : 


model.serialize (modelOutputStream) ; 


结果 如 下 。 结 果 有 上 所 省 略 以 节省 空间 。 关 于 模型 创建 的 基本 信息 如 下 : 


Indexing events using cutoff of 5 


Computing event counts... done. 53 events 


Indexing... done. 


Sorting and merging events... done. Reduced 53 events to 46. 
Done indexing. 
Incorporating indexed data for training... 
done. 
Number of Event Tokens: 46 
Number of Outcomes: 2 
Number of Predicates: 34 
...done. 
Computing model parameters 
Performing 100 iterations. 


1: ... loglikelihood--36.73680056967707 0.05660377358490566 


2 loglikelihood=-17.499660626361216 0.9433962264150944 
3 loglikelihood--13.216835449617108 0.9433962264150944 
4: ... loglikelihood--11.461783667999262 0.9433962264150944 
5 loglikelihood=-10.380239416084963 0.9433962264150944 
6 loglikelihood=-9.570622475692486 0.9433962264150944 
7 loglikelihood=-8.919945779143012 0.9433962264150944 


99: ... loglikelihood--3.513810438211968 0.9622641509433962 
100: ... loglikelihood--3.507213816708068 0.9622641509433962 


异型 评估 


模型 可 以 使 用 TokenNameFinderEvaluator 类 进行 评估 。 评 估 使 用 标注 的 示例 文本 。 对 于 这 个 简单 的 示例 ， 先 创建 包含 如 下 
文本 的 en-ner-person.eval 文 件 : 


«START:person» Bill «END» went to the farm to see «START:person» Sally 
«END». 
Unable to find «START:person» Sally «END» he went to town. 


There he saw «START:person» Fred «END» who had seen <START:person> 
Sally «END» at the book store with «START:person» Mary «END». 


接 下 来 的 代码 用 来 实施 评估 。 先 前 的 模型 用 作 TokenNameFinderEvaluator 构 造 器 的 参数 。 基 于 评估 文件 创建 
NamesampleDatastream 实 例 。 用 TokenNameFinderEvaluator 类 的 evaluate 方 法 进行 评估 : 


TokenNameFinderEvaluator evaluator = 

new TokenNameFinderEvaluator (new NameFinderME (model) ) ; 
lineStream = new PlainTextByLineStream( 

new FilelnputStream("en-ner-person.eval"), "UTF-8"); 
sampleStream = new NameSampleDataStream(lineStream) ; 
evaluator .evaluate (sampleStream) ; 


为 了 判断 模型 在 测试 数据 中 的 表现 ， 执 行 getFMeasure 方 法 ， 结 果 如 下 : 


FMeasure result = evaluator.getFMeasure(); 
System.out.println(í(result.toString()); 


如 下 的 结果 显示 了 查 准 率 、 召 回 率 和 F 值 ， 表 明 找 到 的 实体 有 50% 与 测试 数据 吻合 。 召 回 率 是 找到 的 语料库 中 所 定义 的 实体 所 
占 百分比 。 性 能 度量 综合 了 查 准 率 和 召回 率 ， 定 义 为 F1=2x 查 准 率 x 召回 率 / ( 查 准 率 + 召回 率 ) 


Precision: 0.5 
Recall: 0.25 
F-Measure: 0.3333333333333333 


为 创建 一 个 更 好 的 模型 ， 数 据 和 测试 集 应 尽量 大 。 注 意 这 里 只 论述 了 训练 和 评估 POSs 模 型 的 基本 万 法 。 


46 ”本章 小 结 


NER 涉 及 实体 检测 和 实体 分 类 。 一 般 的 类 别 包括 名 字 、 地 理 位 置 和 事物 。 许 多 应 用 都 用 它 为 搜索 引擎 提供 技术 文 持 ， 解 决 参考 
文献 以 及 判断 文本 的 售 义 。 这 个 过 程 经 常用 于 下 游 任务 。 


我 们 探究 了 几 个 实现 NER 的 技术 。 正 则 表达 式 .是 一 个 同时 支持 Java 核 心 类 和 NLP API 的 方法 。 这 个 技术 在 很 多 应 用 中 都 有 用 ， 
目前 有 很 多 可 用 的 正则 表达 式 库 。 

基于 字典 的 方法 在 一 些 应 用 中 也 很 有 效 。 但 有 时 需要 大 量 精 力 完 善 字典 。 我 们 使 用 LingPipe 的 MapDictionary 类 说 明了 这 个 方 
法 。 


训练 模型 也 能 用 来 进行 NER。 我 们 测试 了 一 些 模型 ， 并 论述 了 如 何 使 用 OpenNLP NameFinderME 来 训练 模型 。 这 个 过 程 和 
之 前 训练 过 程 相似。 


下 一 章 ， 我 们 将 学 习 如 何 判断 词性 ， 如 名 词 、 形 容 词 和 介词 。 


om ”词性 判断 


在 此 之 前 ， 我 们 识别 文本 中 的 实体 (如 人 、 地 点 和 事物 ) 。 在 本 章 中 ， 我 们 将 研究 词性 判断 的 过 程 ， 包 括 在 英语 中 识别 语法 元 
素 ， 如 名 词 和 动词 。 我 们 将 友 现 该 单词 的 上 下 文 是 确定 其 类 型 的 一 个 重要 方面 。 


我 们 将 研究 标注 过 程 ， 其 本 质 上 分 配 一 个 标注 给 词性 ， 这 个 过 程 是 词性 判断 的 核心 。 我 们 将 简要 讨论 标注 的 重要 性 ， 然 后 研究 
词性 判断 困难 的 各 种 影响 因素 。 本 章 将 使 用 各 种 NLP 的 API 进 行 词性 标注 ， 还 将 说 明 如 何 训练 一 个 针对 特殊 文本 的 模型 。 


5.1 词性 标注 


标注 是 对 一 个 词汇 或 一 段 文 字 进 行 掏 述 的 过 程 。 这 个 摘 述 被 称 为 一 个 标注 。 词 性 标注 是 分 配 POs 标 注 给 一 个 词 项 的 过 程 。 这 些 
标注 通常 束 是 名 词 、 动 词 和 形容 词 等 。 
例如 ， 思考 下 面 的 句子 : 


"The cow jumped over the moon." 


对 这 样 的 例子 ， 我 们 将 演示 使 用 OpenNLP 标 注 词 性 的 结果 。 讨 论 如 何 使 用 OpenNLP 词 性 标注 工具 。 如 果 我 们 使 用 标注 前 面 的 
例子 中 的 句子 ,我 们 会 得 到 以 下 结果 。 请 注意 ， 单 词 后 跟 一 个 斜 杠 ， 然 后 跟着 它们 的 词性 标注 。 这 些 标 注 将 简要 说 明 : 


The/DT cow/NN jumped/VBD over/IN the/DT moon./NN 


根据 上 下 文 ， 单 词 会 被 分 配 多 个 标注 。 例 如 ， 单 词 “saw” 可 能 是 一 个 名 词 或 动词 。 一 个 词 可 以 被 分 类 成 不 同 的 类 别 或 信息 ， 
例如 它 的 位 置 、 相 近 的 词 ， 或 相似 性 信息 ， 这 些 信息 可 以 确定 其 合适 类 别 的 概率 。 例 如 ， 如 果 一 个 词 前 面 有 一 个 定 冠 词 之 后 叉 崇 跟 
一 个 名 词 ， 那 么 这 个 词 标 注 应 为 形容 词 。 


一 般 的 标注 过 程 分 为 文本 分 词 ， 判 断 可 能 的 标注 ， 解 决 不 明确 的 标注 ， 有 一 些 算法 可 用 于 执行 词性 标识 (标注 ) 。 一 般 有 两 种 
常用 方法 : 
基于 规则 : 基于 规则 标注 器 使 用 一 组 规则 和 词汇 及 其 标注 的 字典 。 规 则 是 在 一 个 词汇 具有 多 个 标注 时 使 用 。 规 则 通常 使 用 词 
汇 的 上 下 文 来 选择 一 个 标注 。 


- 随机 概率 : 随机 概率 标注 器 或 是 基于 马尔 可 夫 模 型 或 是 线索 模型 的 ， 它 们 根据 基于 决策 树 或 最 大 灶 原 理 。 马 尔 可 夫 模 型 是 有 
限 状 态 机 ， 其 中 每 个 状态 有 两 种 可 能 性 分 布 ， 其 目标 是 为 一 个 句子 找到 标注 的 最 优 序列 。 隐 马尔 可 夫 模 型 (HMM) 也 可 使 用 。 在 
这 些 模型 中 ， 状 态 转换 信息 是 不 可 见 的 。 


最 大 业 标 注 器 使 用 统计 信息 来 确定 词汇 的 词性 ， 经 单 使 用 语料库 来 训练 模型 。 语 料 库 是 航标 注 好 词性 的 词汇 的 集合 。 语 料 库 有 
多 种 语言 。 这 些 语料库 花费 了 很 大 的 力气 来 开 友 。 经 常 使 用 的 语料库 包括 Penn 


Treebank (http://www.cis.upenn.edu/~treebank/) 或 Brown 语 料 库 


(http://www.essex.ac.uk/linguistics/external/clmt/w3c/corpus ling/content/corpora/list/private/brown/brown.html) 。 


这 有 一 个 来 自从 Penn Treebank 语 料 库 的 例子 演示 了 词性 是 如 何 标注 的 ， 如 下 : 


Well/UH what/WP do/VBP you/PRP think/VB about/IN 

the/DT idea/NN of/IN ,/, uh/UH ,/, kids/NNS having/VBG 
to/TO do/VB public/JJ service/NN work/NN for/IN a/DT 
year/NN ?/. 
传统 上 英文 有 9 个 词性 ， 包 括 : Bis, zig. wid, EAR, jr (ial, mi. iii. PAM, EnEn 


弟 需 要 额外 的 类 别 和 子 类 别 。 已 经 出 现 了 多 达 150 种 不 同 词性 标识 。 在 某 些 情况 下 ， 有 必要 创建 新 的 标注 。 如 下 是 一 个 简短 的 标注 
列表 。 


这 些 都 是 本 章 中 经 单 使 用 的 标注 : 


Ek 注 € X 
NN 单数 名 词 或 集合 名 词 
DT 限定 词 
VB 动词 ， 基 本 形式 
VBD 动词 ， 过 去 式 
VBZ 动词 ， 第 三 人 称 单 数 现在 时 态 
IN 介词 或 从 属 连词 
NNP 单数 专 有 名 词 
TO to 
JJ 形容 词 


更 全 面 的 内 容 如 下 表 所 示 。 此 列表 是 来 
Elhttps:;//www.ling.upenn.edu/courses/Fall 2003/ling001/penn treebank pos.html。 宾 夕 法 尼 亚 大 学 (Penn) Treebank 标 
注 集 可 以 参考 下 面 的 网 址 http://www.comp.leeds.ac.uk/ccalas/tagsets/upenn.html。 一 组 标注 被 称 为 tag set, 


标注 说 ”有明 说 明 
Cc 物 主 代词 

co | MM | e [| HW 

DT RBR | 副词， 比较 级 

EX RBS | ali, Heme 

FW e a | RP | B 

IN sym | «5 

JJR 形容 词 ， 比 较 级 | UH | 感叹 词 

JJS 形容 词 ， 最 高 级 | vB | 动词 ,基本 形式 

LS 列表 项 标注 动词 ， 过 去 式 

MD 情态 动词 动 名 词 或 现在 分 词 
NN VBN | ahi, nri 

NNS VBP | 动词 ， 非 第 三 人 称 单数 现在 时 态 


—€— wh- 限定 词 ( wh 代表 疑问 词 who whose 
where when what) 
PDT wh- 代名词 

POS wes | Hh wh CAN 

PRP WR | wh Ma 


人 工 语 料 库 的 开 友 是 一 项 入 动 密集 的 工作 。 然 而 ,一些 统 计 技术 已 经 锐 开 友 用 来 创建 语料库 。 一 些 语料库 已 经 可 以 使 用 。 其 中 
首屈一指 的 是 Brown 语 料 库 (http://clu.uni.no/icame/manuals/BROWN/INDEX.HTM) 。 比 较 新 的 语料库 包括 英国 国家 语料库 
(http://www.natcorp.ox.ac.uk/corpus/index.xml) ， 其 已 超过 100 万 个 单词 ， 还 有 美国 国家 语料库 
(http://www.anc.org/) 。 语 料 库 的 列表 可 以 在 网 址 http://en.wikipedia.org/wiki/List_of text corpora 找 到 。 


5.1.1 词性 标注 器 的 重要 性 


正确 标注 的 句子 可 以 提高 下 游 加 工 任务 的 质量 。 如 果 我 们 知道 “sue” 是 一 个 动词 而 不 是 名 词 ， 那 么 这 可 以 帮助 确定 词 项 之 间 
的 正确 关系 。 确 定 在 词性 标注 、 短 语 、 子 句 和 它们 之 间 的 任何 关系 称 为 解析 。 与 分 词 过 程 相反 ， 分 词 只 关心 识别 “word” 元 素 而 
不 天 心 它 们 的 合 义 。 


词性 标注 可 用 于 许多 下 游 流 程 ， 如 问题 的 分 析 和 文本 的 情感 分 析 ， 一 些 社 会 媒体 网 站 经 常 对 其 用 户 间 交流 的 情感 感 兴趣 ， 全 文 
索引 会 频繁 地 使 用 的 词性 标注 数据 ， 语 音 处 理 可 以 使 用 标注 来 帮助 决定 如 何 友 音 。 


5.1.2 ”词性 标注 难 在 何 处 


每 一 种 语言 都 有 很 多 万 面 特 性 可 以 使 词性 标注 变 得 困难 。 大 多 数 英语 单词 都 会 有 有 两 个 或 多 个 与 之 相关 的 标注 。 一 本 词典 不 足以 
确定 菏 一 个 单词 的 词性 。 例 如 ,， 像 “bill” 与 “force” 的 单词 其 含义 取决 于 它们 的 上 下 文 。 下 面 的 句子 演示 了 这 两 个 单词 是 如 果 在 
同一 个 句子 出 现 并 分 别 作为 名 词 和 动词 的 。 


"Bill used the force to force the manger to tear the bill in two." 


使 用 OpenNLP 来 标注 这 句 话 得 到 下 面 的 结果 : 


Bill/NNP used/VBD the/DT force/NN to/TO force/VB the/DT manger/NN to/TO 
tear/VB the/DT bill/NN in/IN two./PRPS$ 


社交 媒介 (如 推 特 ) 使 用 的 短信 文 (textese) 是 不 同形 式 的 文本 的 组 合 ， 包 括 缩写 、 标 注 、 表 情 符号 和 倡 语 ， 使 其 更 难以 给 
句子 进行 标注 。 例 如 ， 下 面 的 信息 很 难 标注 : 


"AFAIK she H8cth! BTW had a GR8tym at the party BBIAM." 
CHS FT: 


"As far as | know, she hates cleaning the house! By the way, had a great time at the party.Be back in a 


minute." 
使 用 OpenNLP 标 注 ， 我 们 将 得 到 下 面 的 结果 : 


AFAIK/NNS she/PRP H8/CD cth!/. 
BTW/NNP had/VBD a/DT GR8/CD tym/NN at/IN the/DT party/NN BBIAM./. 


fEANBES.2.2.2:5, dll FiziieADafssRiLingPipe&bigAgRETR. RA RASH f Fen Bel: 


is B LES 
As far as I know AFAIK By the way BTW 
AFK 


Rolling on the floor laughing IDK 
At the moment ATM IMHO 


有 多 个 缩 略语 列表 ， 一 个 比较 全 面 的 列表 可 在 下 面 的 网 址 中 找到 : http:/ /www.ukrainecalling.com/textspeak.aspxe 

分 词 是 词性 标注 过 程 的 重要 一 步 。 如 果 词 项 拆 分 不 正确 ， 则 我 们 会 得 到 错误 的 结果 。 此 外 ， 还 有 几 个 其 他 潜在 的 问题 ， 包 括 : 
“如果 我 们 使 用 小 写 ， 那么 诸如 “sam” 会 使 得 人 和 “系统 管理 奖 ” 混 淆 (www.sam.gov) 

:我们 必须 考虑 到 缩 略 例 如 can t ， 并 认识 到 会 有 不 同 的 字符 会 用 到 单 引 号 

- 例如 短语 “vice versa” 可 以 视 为 一 个 单元 ， 这 是 一 个 英格兰 乐队 名 称 、 一 部 小 说 的 标题 、 一 本 杂志 的 标题 

我 们 不 能 忽视 使 用 连 字 符 的 单词 例如 “first-cut” 和 “prime-cut”， 它 们 的 含义 不 同 于 其 单个 的 含义 


. 一 些 单词 带 有 详 入 式 数 字 如 iPhone 5s 


- 特殊 字符 序列 (如 URL 或 电子 邮件 的 地 址 ) 也 需要 处 理 

有 些 单 词 是 嵌入 在 引号 或 括号 中 ， 会 使 它们 的 信义 令 人 困惑 。 请 看 下 面 的 示例 : 
"Whether ‘Blue’ was correct or not (it snot) is debatable.” 

“Blue” 可 能 指 的 是 蓝 颜 色 或 者 可 以 想象 成 一 个 人 的 绰号 。 标 注 这 句 话 的 结果 如 下 面 所 示 : 


Whether/IN "Blue"/NNP was/VBD correct/JJ or/CC not/RB (it's/JJ not)/NN 
is/VBZ debatable/VBG 


5.2 ”使 用 NLP API 


我 们 将 使 用 OpenNLP 库 、Stanford API 库 和 LingPipe 库 来 演示 词性 标注 。 每 个 示例 将 使 用 下 面 的 句子 。 这 是 儒 勒 . 凡 尔 纳 的 小 
说 《海底 两 万 里 》 第 5 章 中 的 第 一 句 话 : 


private String[] sentence = ["The", "voyage", "of", "the", 
"Abraham", "Lincoln", Twas", "Tor", "4". "long", "time", "marked", 
"by", "no", "special", "incident."}; 


要 处 理 的 文本 不 可 能 忌 是 以 这 种 方式 来 定义 。 有 时候 句子 会 被 定义 为 单个 字符 忠 : 
String theSentence = "The voyage of the Abraham Lincoln was for a " 


+ "long time marked by no special incident."; 


我 们 可 能 需要 将 单个 字符 串 转 换 为 字符 串 数 组 。 有 很 多 方法 可 以 把 这 个 字符 串 转 换 为 单词 的 数组 。 下 面 是 使 用 


tokenizeSentence 方 法 执行 这 个 操作 : 


public String[] tokenizeSentence(String sentence) | 
String words[] = sentence.split("S+") ; 
return words; 


下 面 的 代码 将 演示 如 何 使 用 此 方法 : 


String words[] = tokenizeSentence (theSentence) ; 
for(String word : words) { 
System.out.print(word + " "); 


| 


System.out.println(); 


结果 如 下 : 


The voyage of the Abraham Lincoln was for a long time marked by no 
Special incident. 


另外 我 们 还 可 以 使 用 分 词 器 ， 如 OpenNLP 的 WhitespaceTokenizer 类 ， 如 下 所 示 : 


String words[] = 
WhitespaceTokenizer.INSTANCE.tokenize (sentence) ; 


5.2.1 ”使 用 OpenNLP 辣 性 标注 器 


OpenNLP 提 供 了 多 个 支持 词性 标注 的 类 。 我 们 将 演示 如 何 使 用 POSTaggerME 类 来 执行 基本 的 标注 ， 以 及 使 用 ChunkerME 类 
来 执行 分 块 。 分 块 涉及 根据 单词 的 类 型 进行 相关 的 单词 分 组 。 这 可 以 更 深入 地 了 解 句 子 的 结构 。 我 们 还 将 研究 POSDictionary 实 例 
的 创建 和 使 用 。 


5.2.1.1 使 用 OpenNLP 的 POSTaggerME 类 词性 标注 器 


OpenNLP 的 POSTaggerME 类 使 用 最 大 炳 原理 来 进行 词性 标注 。 根 据 这 个 词 本 身 和 这 个 词 的 上 下 文 来 确定 标注 类 型 。 任 何 单 
词 都 可 能 有 多 个 相关 的 标注 。 标 注 器 使 用 概率 模型 来 确定 要 分 配 的 标注 。 


从 文件 加 载 词 性 标注 模型 。en-pos-maxent.bin 模 型 经 常 使 用 ， 其 是 基于 Penn TreeBank 标 注 库 。 可 以 
在 http://opennlp.sourceforge.net/models-1.5/ 找 到 OpenNLP 各 种 预先 训 | 练 好 的 词性 标注 模型 。 


加 载 模 块 时 可 能 会 产生 |OException 异 常 ， 所 以 使 用 try-catch 块 来 加 载 模型 ， 如 下 所 示 ， 我们 使 用 en-pos-maxent.bin 来 加 载 


模型 : 


try (InputStream modelIn = new FileInputStream( 
new File(getModelDir(), "en-pos-maxent.bin"));) | 


| 


catch (IOException e) { 
// Handle exceptions 


接 下 来 ， 创 建 POSModel 和 POSTaggerME 实 例 : 


POSModel model = new POSModel ((modelIn); 
POSTaggerME tagger = new POSTaggerME (model); 


tag 方 法 使 用 要 处 理 的 文本 作为 它 的 参数 : 


String tags[] = tagger.tag(sentence) ; 


zi 1 Ei RITE ML JB : 


for (int i = 0; i«sentence.length; i++) | 
System.out.print(sentence[i] + "/" + tags[i] + " "); 


结果 如 下 。 每 个 单词 后 面 跟 其 类 型 : 


The/DT voyage/NN of/IN the/DT Abraham/NNP Lincoln/NNP was/VBD for/IN a/DT 
long/JJ time/NN marked/VBN by/IN no/DT special/JJ incident./NN 


对 于 任何 一 句 话 ， 每 一 个 单词 都 可 能 被 分 配 多 个 标注 。topKSequences 方 法 将 返回 一 组 基于 其 正确 概率 的 集合 。 在 接 下 来 的 
代码 中 ， 使 用 topKSequences 方 法 处 理 sentence 变 量 的 内 容 并 显示 结果 : 


Sequence topSequences[] = tagger.topKSequences(sentence); 
for (inti = 0; i«topSequences.length; i++) { 
System.out.println(topSequences[il); 


结果 如 下 ， 其 中 的 第 一 个 数字 表示 加 权 分 数 ， 括 号 内 的 标注 根据 分 数 排列 : 


-0.5563571615737618 [DT, NN, IN, DT, NNP, NNP, VBD, IN, DT, JJ, NN, VBN, 
IN, DT, JJ, NN] 


-2.9886144610050907 [DT, NN, IN, DT, NNP, NNP, VBD, IN, DT, JJ, NN, VBN, 
IN, DT, JJ, .] 


-3.771930515521527 [DT, NN, IN, DT, NNP, NNP, VBD, IN, DT, JJ, NN, VBN, 
IN, DT, NN, NN] 


请 确保 你 引用 了 正确 的 Sequence 类 。 在 这 个 例子 中 ， 使 用 impott opennlp.tools.util.Sequence; 。 


Sequence 类 有 多 种 方法 ， 详 见 下 表 : 


T 法 含 义 
getOutcomes 返回 字符 串 列表 其 表示 句子 中 每 个 单词 的 标注 
getProbs 返回 double 类 型 数组 变量 其 表示 序列 中 为 每 个 标注 的 概率 
getScore 返回 标注 序列 的 加 权 值 


在 下 面 的 代码 中 ,我们 使 用 这 几 种 万 法 来 说 明 它 们 是 如 何 使 用 的 。 对 于 每 个 标注 序 旬 ， 用 和 斜 杠 分 隔 标 注 及 其 概率 : 


for (int i = 0; i«topSequences.length; i++) | 
List«String» outcomes - topSequences[i].getOutcomes(); 
double probabilities[] = topSequences[i].getProbs(); 
for (int j = 0; j «outcomes.size(); j++) { 


System.out.printf("$s/$5.3f ",outcomes.get(j), 
probabilities[jl); 


| 


System.out.println(); 


| 


System.out.println(); 


结果 如 下 。 相 邻 的 几 行 代表 一 个 标注 序列 : 


DT/0.992 NN/0.990 IN/0.989 DT/0.990 NNP/0.996 NNP/0.991 VBD/0.994 
IN/0.996 DT/0.996 JJ/0.991 NN/0.994 VBN/0.860 IN/0.985 DT/0.960 JJ/0.919 
NN/0.832 


DT/0.992 NN/0.990 IN/0.989 DT/0.990 NNP/0.996 NNP/0.991 VBD/0.994 
IN/0.996 DT/0.996 JJ/0.991 NN/0.994 VBN/0.860 IN/0.985 DT/0.960 JJ/0.919 
./0.073 


DT/0.992 NN/0.990 IN/0.989 DT/0.990 NNP/0.996 NNP/0.991 VBD/0.994 
IN/0.996 DT/0.996 JJ/0.991 NN/0.994 VBN/0.860 IN/0.985 DT/0.960 NN/0.073 
NN/0.419 


5.2.1.2 ”使 用 OpenNLP 分 块 


分 块 的 过 程 包括 把 一 个 句子 分 成 几 个 部 分 或 数据 块 。 然 后 可 以 用 标注 注释 这 些 数 据 块 。 我 们 将 使 用 ChunkerME 类 来 说 明 这 是 
如 何 实现 的 。 这 个 类 会 加 载 一 个 模型 到 一 个 ChunkerModel 实 例 。ChunkerME 类 的 chunk 方 法 执行 实际 分 块 处 理 。 我 们 也 将 研究 
使 用 chunkAsSpans 方 法 来 返回 这 些 分 块 的 信息 。 这 能 让 我 们 了 人 解 一 个 分 块 有 多 长 以 及 分 块 是 由 什么 元 素 组 成 的 。 


我 们 将 使 用 en-pos-maxent.bin 文 件 创建 一 个 POSTaggerME 类 实例 模型 。 我 们 需要 使 用 这 个 实例 来 为 文本 标注 ， 残 像 上 一 节 
一 样 。 我 们 还 将 使 用 en-chunker.bin 文 件 创建 一 个 ChunkerModel 的 实例 与 ChunkerME 的 实例 一 起 使 用 。 


这 些 模型 是 通过 输入 流 创 建 的 ， 如 下 面 的 例子 所 示 。 


我 们 使 用 try-with-resources 的 方式 打开 和 关闭 文件 ， 并 处 理 可 能 抛 出 的 异常 : 


try ( 
InputStream posModelStream = new FileInputStream( 
getModelDir() + "\\en-pos-maxent.bin") ; 
InputStream chunkerStream = new FileInputStream ( 
getModelDir() + "\\en-chunker.bin");) { 


| catch (IOException ex) { 
// Handle exceptions 


下 面 的 代码 创建 并 使 用 标注 器 来 找 出 句子 中 每 个 音 词 的 词性 。 然 后 显示 这 句 话 的 蛙 词 及 其 标注 : 


POSModel model = new POSModel (posModelStream) ; 
POSTaggerME tagger = new POSTaggerME (model) ; 


String tags[] = tagger.tag(sentence) ; 
for(int i=0; i<tags.length; i++) { 
System.out.print(sentence[i] + "/" + tags[i] + " "); 


| 


System.out.println(); 


结果 如 下 。 结 果 显 示 出 来 之 后 也 丈 清 楚 了 解 分 块 器 是 如 何 工作 的 : 


The/DT voyage/NN of/IN the/DT Abraham/NNP Lincoln/NNP was/VBD for/IN a/DT 
long/JJ time/NN marked/VBN by/IN no/DT special/JJ incident./NN 


使 用 输入 流 创建 一 个 ChunkerModel 实 例 。 然 后 创建 ChunkerME 实 例 ， 紧 接着 使 用 其 chunk 方 法 ， 如 下 所 示 。chunk 方 法 将 
使 用 这 句 话 的 词 项 及 其 标注 来 创建 一 个 字符 串 数 组 。 每 个 字符 串 内 都 包括 词 项 和 分 块 的 信息 : 


ChunkerModel chunkerModel - new 
ChunkerModel (chunkerStream) ; 


ChunkerME chunkerME = new ChunkerME (chunkerModel); 
String result[] = chunkerME.chunk (sentence, tags); 


显示 结果 数组 里 的 每 个 词 项 及 其 分 块 标注 : 


for (int i = 0; i « result.length; i++) { 
System.out.println("[" + sentence[i] + "] " + result[il); 


结果 如 下 。 方 括号 中 显示 句子 的 词 项 ， 其 后 面 跟着 其 分 块 标 注 。 下 表 中 介绍 了 这 些 标注 : 


第 一 部 分 


B 标注 的 开始 

I 标注 的 中 间 

E 标注 的 结束 (如 果 分 块 只 包括 一 个 单词 ， 不 出 现 这 个 结束 标注 ) 
第 二 部 分 

NP 名 词 块 

VB 动词 块 


多 个 词组 成 的 词组 被 分 在 一 起 ， 如 “The voyage" 和 “the Abraham Lincoln" 。 


[The] B-NP 


[voyage] I-NP 


[of] B-PP 
[the] B-NP 
[Abraham] I-NP 
[Lincoln] I-NP 
[was] B-VP 


[ 4-1 = T^? T^ 


LLUL]J D-rr 
[a] B-NP 

[long] I-NP 
[time] I-NP 
[narked] B-VP 
[by] B-PP 

[no] B-NP 
[special] I-NP 
[1incident.] I-NP 


如 果 我 们 有 兴趣 获取 分 块 的 更 多 详细 信息 ， 我 们 可 以 使 用 ChunkerME 类 的 chunkAsSpans 方 法 。 这 个 方法 返回 Span 对 象 的 数 
组 。 每 个 对 象 表示 文本 中 的 一 个 span。 


ChunkerME 类 还 有 其 他 几 种 方法 。 在 这 里 ， 我 们 将 况 明 如 何 使 用 getType、getstart 和 getEnd 方 法 。getType 方 法 返回 分 块 
标注 的 第 二 部 分 ，getStart 和 和 getEnd 万 法 则 返回 词 项 在 原始 句子 中 开始 和 结束 的 过 引 。length 万 法 返回 词 项 数量 的 span 的 长 度 。 


在 下 面 的 例子 中 ， 使 用 sentence 和 tag 数 组 作为 参数 执行 ChunkAsSpans 方 法 。 然 后 显示 span 数 组 。 外 部 循环 一 次 循环 处 理 一 
个 Span 对 象 ， 并 显示 其 基本 信息 。 内 部 的 循环 把 span 的 文本 信息 放 在 括号 内 显示 : 


Span[] spans = chunkerME.chunkAsSpans (sentence, tags); 
for (Span span : spans) { 
System.out.print("Type: " + span.getType() + " - " 
+ " Begin: " + span.getStart () 
+ " End:" + span.getEnd () 
+ " Length: " + span.length() +" ["); 
for (int j = span.getStart(); j < span.getEnd(); j++) { 
System.out.print(sentence[j] + " "); 


| 


System.out.println("]"); 


下 面 的 结果 清楚 地 显示 span 风 格 、 在 sentence 数 组 的 位 置 、 长 度 ， 以 及 实际 的 文本 : 


Type: NP - Begin: 0 End:2 Length: 2 [The voyage | 
Type: PP - Begin: 2 End:3 Length: 1 [of ] 

Type: NP - Begin: 3 End:6 Length: 3 [the Abraham Lincoln ] 
Type: VP - Begin: 6 End:7 Length: 1 [was ] 

Type: PP - Begin: 7 End:8 Length: 1 [for ] 

Type: NP - Begin: 8 End:11 Length: 3 [a long time ] 

Type: VP - Begin: 11 End:12 Length: 1 [marked ] 

Type: PP - Begin: 12 End:13 Length: 1 [by ] 

Type: NP - Begin: 13 End:16 Length: 3 [no special incident. ] 


5.2.1.3 ”使 用 POSDictionary 类 

标注 字典 包含 每 个 单词 的 有 效 标 注 。 这 样 可 以 防止 标注 被 不 适当 地 应 用 于 某 个 单词 。 另 外 ， 一 些 搜索 算法 执行 速度 更 快 的 原因 
是 因为 它们 不 需要 考虑 那些 出 现 概 率 比 较 少 的 标注 。 

在 本 节 中 ， 我 们 将 演示 如 何 : 

- 获得 标注 器 的 标注 词典 

+ 确定 一 个 词 有 什么 标注 

- 更 改 一 个 单词 的 标注 

. 添加 一 个 新 标注 字典 到 一 个 新 的 标注 器 工厂 


与 前 面 的 示例 一 样 ， 我 们 将 使 用 一 个 try-with-resources 块 来 打开 词性 标注 模型 的 输入 流 ， 然 后 创建 模型 和 标注 器 工厂 ， 如 下 
Para: 


try (InputStream modelln = new FileInputStream( 
new File(getModelDir(), "en-pos-maxent.bin"));) { 
POSModel model = new POSModel (modelIn); 
POSTaggerFactory posTaggerFactory - model.getFactory(); 


|! catch (IOException e) { 
//Handle exceptions 


获取 用 于 标注 的 标注 词典 


我 们 使 用 POSModel 类 的 getFactory 方 法 来 得 到 一 个 POSTaggerFactory 实 例 。 然 后 使 用 其 getTagDictionary 方 法 来 获取 其 
TagDictionary 实 例 。 如 下 所 示 : 


MutableTagDictionary tagDictionary = 
(MutableTagDictionary)posTaggerFactory.getTagDictionary(); 


MutableTagDictionary 接 口 继承 自 TagDictionary 接 口 。TagDictionary 接 口 有 一 个 getTags 方 法 ，MutableTagDictionary 接 
口 多 了 个 put 万 法 ， 它 允许 添加 标注 到 字典 中 去 。 这 些 接口 是 由 POSDictionary 类 实现 的 。 


确定 一 个 单词 的 标注 
厂 要 获取 给 定单 词 的 标注 ， 请 使 用 getTags 万 法 。 它 用 字符 串 数 组 的 形式 返回 标注 数组 。 这 些 标注 如 下 所 示 : 
String tags[] = tagDictionary.getTags("force"); 
for (String tag : tags) | 
System.out.print("/" 4 tag); 


| 


System.out.println(); 


结果 如 下 : 


/ NN/ VBP/VB 


这 意味 着 能 以 三 种 不 同 的 方式 解释 “force” 一 词 。 
更 改 一 个 蛙 词 的 标注 


MutableTagDictionary 接 口 的 put 方 法 人 允许 我 们 为 一 个 单词 添加 一 个 新 标注 。 访 万 法 具有 两 个 参数 : 这 个 里 词 及 其 新 的 标 


注 。 然 后 万 法 返回 一 个 包含 旧 标 注 数 组 。 


在 以 下 示例 中 ， 我 们 使 用 新 标注 来 蔡 换 旧 标 注 。 然 后 显示 旧 的 标注 。 


String oldTags[] = tagDictionary.put("force", "newTag"); 
for (String tag : oldTags) { 
System.out.print("/" + tag); 


| 


System.out.println(); 


下 面 的 结果 列 出 这 个 单词 的 旧 标 注 : 


/ NN/VBP/VB 


这 些 标注 已 极 蔡 换 为 新 的 标注 ， 如 下 所 示 显 示 当 前 标注 : 


tags = tagDictionary.getTags("force"); 
for (String tag : tags) | 
System.out.print("/" + tag); 


| 


System- OUE. Printen] y 


我 们 得 到 以 下 结果 : 


/new 


要 保留 旧 的 标注 ， 我 们 需要 创建 一 个 字符 串 数 组 来 保存 旧 的 和 新 的 标注 ， 然 后 使 用 该 数组 作为 put 万 法 第 二 个 参数 ， 如 下 所 


El 


String newTags[] = new String[tags.length-«1]|; 

for (int i20; i«tags.length; i++) | 
newTags[i] = taasl[il; 

| 


newTags[tags.length] = "newTag"; 
oldTags - tagDictionary.put("force", newTags); 


如 果 我 们 要 重新 显示 单词 当前 标注 ， 可 以 看 到 保留 了 旧 标 注 并 添加 了 新 标注 ， 如 下 所 示 : 


/ NN/ VBP/VB/newTag 


当 添 加 标注 时 ， 小 心 并 适当 分 配 标注 的 顺序 ， 因 为 顺序 会 影响 分 配 标 注 。 
添加 新 的 标注 字典 
新 的 标注 字典 可 以 被 添加 a 到 一 个 POSTaggerFactory 实 例 。 我 们 将 通过 创建 新 的 POSTaggerFactory， 然 后 添加 我 们 之 前 开发 


的 tagDictionary 说 明 这 一 过 程 。 如 下 所 示 ， 首 先 使 用 默认 构造 器 创建 一 个 新 的 工厂 类 ， 然 后 调用 新 工厂 类 的 setTagDictionary 方 
iA. 


POSTaggerFactory newFactory - new POSTaggerFactory(); 
newFactory.setTagDictionary (tagDictionary); 


为 了 确认 已 添加 的 标注 字典 ， 我 们 显示 “force” 一 词 的 标注 如 下 所 示 : 


tags = newFactory.getTagDictionary().getTags("force"); 
for (String tag : tags) { 
System.out.print("/" + tag); 


| 


System.out.println(); 


标注 是 相同 的 ， 如 下 所 示 : 


/ NN/VBP/VB/newTag 


从 文件 创建 一 个 字典 
如 果 我 们 要 创建 一 个 新 字典 ， 一 个 万 法 是 创建 一 个 包含 单词 和 它们 标注 的 XML 文 件 ， 然 后 使 用 该 文件 创建 字典 。OpenNLP 的 


POSDictionary 类 的 create 方 法 广 持 这 种 字典 创建 方法 。 


XML 文 件 由 词典 root 元 素 后 跟 一 系列 entry 元 素 构成 。entry 元 素 使 用 tags 属 性 指定 单词 的 标注 。 单 词 被 包含 在 entry 元 素 作为 
token 元 素 。 以 下 是 一 个 简单 的 例子 ， 文 件 dictionary.txt 为 包含 两 个 单词 的 标注 字典 : 


«dictionary case sensitive-"false"- 
«entry tags="JJ VB > 
<token>strong</token> 
</entry> 
<entry tags="NN VBP VB"> 
<token>force</token> 
-/entry» 
</dictionary> 


我 们 基于 输入 流 用 create 方 法 创建 字典 ， 如 下 所 示 : 


try (InputStream dictionaryIn = 
new FileInputStream(new File("dictionary.txt"));) { 
POSDictionary dictionary - 
POSDictionary.create (dictionaryIn); 


|) catch (IOException e) { 
// Handle exceptions 
} 


POSDictionary 类 有 一 个 iterator 方 法 返回 一 个 字符 类 型 的 iterator 对 象 。 其 next 方 法 返回 字典 中 的 每 个 单词 。 我 们 可 以 使 用 这 
些 方法 来 显示 字典 中 的 所 有 内 容 ， 如 下 所 示 : 


Iterator«String» iterator = dictionary.iterator(); 
while (iterator.hasNext()) | 
String entry - iterator.next(); 
String tags[] = dictionary.getTags (entry); 
System.out.print(entry + " "); 
for (String tag : tags) { 
System.out.print("/" + tag); 


| 


System.out.println(); 


下 面 显示 了 我 们 预期 的 结果 : 


strong /JJ/VB 
force /NN/VBP/VB 


5.2.2 ”使 用 Stanford 词 性 标注 器 


在 本 书 中 ， 我 们 将 研究 Stanford API 支 持 的 两 种 不 同 的 标注 万 法 。 第 一 种 方法 使 用 MaxentTagger 类 。 正 如 其 名 ， 它 使 用 最 大 


蚁 原理 来 进行 词性 标注 。 我 们 也 将 使 用 这 个 类 来 设计 一 个 模型 处 理 “ 短 信 文 ”类 型 的 文本 。 第 二 种 方法 将 使 用 流水 线 和 注释 器 。 英 
文 标注 器 使 用 Penn Treebank 有 英语 词类 标注 库 。 


5.2.2.1 使 用 Stanford MaxentTagger 类 


UR 
la ~ 


型 。 


MaxentTagger 类 使 用 模型 来 执行 标注 任务 。 大 量 的 模型 及 其 捆绑 的 APl 都 被 包括 在 extension.tagger 文 件 里 。 它 们 包括 贡 
汉语 、 阿 拉 伯 语 、 法 语 和 德语 的 模型 。 这 里 列 出 了 英语 的 模型 。 模 型 名 称 里 有 wsj 前 缀 的 ， 是 指 基 于 《华尔街 日 报 》 产 生 的 模 
其 他 词汇 指 用 于 训练 模型 的 方法 。 这 些 概念 在 这 里 不 讨论 : 


: wsj-0-18-bidirectional-distsim.tagger 

: wsj-0-18-bidirectional-nodistsim. tagger 

: wsj-0-18-caseless-left3words-distsim. tagger 
: wsj-0-18-left3words-distsim. tagger 


: wsj-0-18-left3words-nodistsim. tagger 


: english-bidirectional-distsim.tagger 
- english-caseless-left3words-distsim. tagger 


: english-left3words-distsim. tagger 
本 例 将 从 一 个 文件 中 读 取 一 系列 句子 。 然 后 对 每 个 句子 进行 处 理 ， 襄 明 各 种 访问 ， 并 显示 单词 及 其 标注 的 万 法 。 


我 们 首先 使 用 try-with-resources 块 来 处 理 IO 异 常 ， 如 下 所 示 。 使 用 wsj-0-18-bidirectional-distsim.tagger 文 件 创建 
MaxentTagger 类 的 一 个 实例 。 


使 用 MaxentTagger 类 的 tokenizeText 方 法 创建 一 个 接着 一 个 HasWord 对 象 的 List 实 例 。 这 些 句 子 都 从 文件 sentences.txt 读 
入 。HasWord 接 口 代表 单词 和 内 容 两 种 方法 : setWord 和 word 方 法 。 后 一 种 方法 以 字符 串 形式 返回 一 个 单词 。 每 个 句子 由 
HasWord 对 象 的 List 实 例 来 表示 : 


try { 
MaxentTagger tagger = new MaxentTagger(getModelDir() + 


"//wsj-0-18-bidirectional-distsim.tagger"); 
List<List<HasWord>> sentences = MaxentTagger.tokenizeText ( 
new BufferedReader (new FileReader("sentences.txt"))); 


LII. 


! catch (FileNotFoundException ex) { 
// Handle exceptions 


sentences.txt 文 件 内 容 为 《海底 两 万 里 》 这 本 书 第 5 章 中 的 前 四 句 话 : 


The voyage of the Abraham Lincoln was for a long time marked by no 
special incident. 

But one circumstance happened which showed the wonderful dexterity of 
Ned Land, and proved what confidence we might place in him. 

The 30th of June, the frigate spoke some American whalers, from whom 
we learned that they knew nothing about the narwhal. 

But one of them, the captain of the Monroe, knowing that Ned Land had 
shipped on board the Abraham Lincoln, begged for his help in chasing a 
whale they had in sight. 


添加 一 个 循环 来 处 理 sentences 列 表 里 的 每 个 句子 。tagSentence 方 法 返回 一 个 TaggedWord 对 象 的 List 实 例 ， 如 下 所 示 。 


TaggedWord 类 实现 自 HasWord 接 口 ， 并 添加 一 个 tag 方 法 返回 与 这 个 单词 相关 的 标注 。 如 下 所 示 ，toString 方 法 被 用 来 显示 每 个 
句子 : 


List«TaggedWord» taggedSentence 
tagger.tagSentence(sentence) 


for (List«HasWord» sentence : sentences) { 
List«TaggedWord» taggedSentence- 
tagger.tagSentence(sentence); 
System.out.println(taggedSentence); 


| 


结果 如 下 : 


[The/DT, voyage/NN, of/IN, the/DT, Abraham/NNP, Lincoln/NNP, was/VBD, 
for/IN, a/DT, long/JJ, --- time/NN, marked/VBN, by/IN, no/DT, special/JJ, 
incident/NN, ./.] 

[But/CC, one/CD, circumstance/NN, happened/VBD, which/WDT, showed/VBD, 
the/DT, wonderful/JJ, dexterity/NN, of/IN, Ned/NNP, Land/NNP, ,/,, and/ 
CC, proved/VBD, what/WP, confidence/NN, we/PRP, might/MD, place/VB, in/ 
IN, him/PRP, ./.] 

[The/DT, 30th/JJ, of/IN, June/NNP, ,/,, the/DT, frigate/NN, spoke/ 

VBD, some/DT, American/JJ, whalers/NNS, ,/,, from/IN, whom/WP, we/PRP, 
learned/VBD, that/IN, they/PRP, knew/VBD, nothing/NN, about/IN, the/DT, 
narwhal/NN, ./.] 

[But/CC, one/CD, of/IN, them/PRP, ,/,, the/DT, captain/NN, of/IN, the/ 
DT, Monroe/NNP, ,/,, knowing/VBG, that/IN, Ned/NNP, Land/NNP, had/VBD, 
shipped/VBN, on/IN, board/NN, the/DT, Abraham/NNP, Lincoln/NNP, ,/,, 
begged/VBN, for/IN, his/PRP$, help/NN, in/IN, chasing/VBG, a/DT, whale/ 
NN, they/PRP, had/VBD, in/IN, sight/NN, ./.] 


或 者 我 们 使 用 Sentence 类 的 listTostring 方 法 ， 将 要 标注 的 句子 转换 为 一 个 简单 的 字符 串 对 象 。 当 listTostring 方 法 的 第 二 个 参 
数 为 false 时 ， 就 是 使 用 HasWord 的 toSstring 方 法 来 创建 生成 的 字符 串 ， 如 下 所 示 : 


List«TaggedWord» taggedSentence = 
tagger.tagSentence(sentence); 
for (List«HasWord» sentence : sentences) { 
List«TaggedWord» taggedSentence- 
tagger.tagSentence (sentence); 
System.out.println(Sentence.listToString(taggedSentence, false)); 


这 融 产 生 了 更 加 美观 的 结果 : 


The/DT voyage/NN of/IN the/DT Abraham/NNP Lincoln/NNP was/VBD for/IN a/DT 
long/JJ time/NN marked/VBN by/IN no/DT special/JJ incident/NN ./. 


But/CC one/CD circumstance/NN happened/VBD which/WDT showed/VBD the/DT 
wonderful/JJ dexterity/NN of/IN Ned/NNP Land/NNP ,/, and/CC proved/VBD 
what/WP confidence/NN we/PRP might/MD place/VB in/IN him/PRP ./. 


The/DT 30th/JJ of/IN June/NNP ,/, the/DT frigate/NN spoke/VBD some/DT 
American/JJ whalers/NNS ,/, from/IN whom/WP we/PRP learned/VBD that/IN 
they/PRP knew/VBD nothing/NN about/IN the/DT narwhal/NN ./. 


But/CC one/CD of/IN them/PRP ,/, the/DT captain/NN of/IN the/DT Monroe/ 
NNP ,/, knowing/VBG that/IN Ned/NNP Land/NNP had/VBD shipped/VBN on/IN 

board/NN the/DT Abraham/NNP Lincoln/NNP ,/, begged/VBN for/IN his/PRP$ 

help/NN in/IN chasing/VBG a/DT whale/NN they/PRP had/VBD in/IN sight/NN 
T ie 


我 们 可 以 使 用 以 下 代码 得 到 相同 的 结果 。word 和 tag 方 法 用 来 获取 每 个 单词 及 其 标注 : 


List«TaggedWord» taggedSentence = 
tagger.tagSentence (sentence); 


for (TaggedWord taggedWord : taggedSentence) | 


System.out.print (taggedWord.word() + "/" + 
taggedWord.tag() + " "); 


| 


System.out.printlin(); 
如 果 我 们 只 对 获取 某 一 个 给 定 标注 感 兴 趣 ， 可 以 使 用 如 下 方法 ， 下 面 将 只 多 出 早 数 名 词 标注 (NN): 


List«TaggedWord» taggedSentence = 
tagger.tagSentence (sentence) ; 
for (TaggedWord taggedWord : taggedSentence) { 
if (taggedWord.tag().startsWith("NN")) | 
System.out.print(taggedWord.word() + 


n "i ) 


| 


System.out.printin(); 


下 面 代 码 显示 每 个 句子 中 有 单数 名 字 标 注 的 早 词 : 


NN Tagged: voyage Abraham Lincoln time incident 
NN Tagged: circumstance dexterity Ned Land confidence 
NN Tagged: June frigate whalers nothing narwhal 


NN Tagged: captain Monroe Ned Land board Abraham Lincoln help whale sight 


5.2.2.2 ”使 用 MaxentTagger 类 来 标注 短信 文 


我 们 可 以 使 用 一 个 不 同 的 模型 来 处 理 可 能 包括 短信 文 的 推 特 文本 。GATE (https://gate.ac.uk/wiki/twitter- 
postagger.html) 是 一 个 已 经 训练 好 的 用 于 处 理 推 特 文 本 的 模型 。 该 模型 在 这 里 用 于 处 理 短 信 文 : 


MaxentTagger tagger = new MaxentTagger (getModelDir() 
+ "//gate-EN-twitter.model"); 


在 这 里 ， 我 们 使 用 MaxentTagger 类 的 tagstring 方 法 来 处 理 来 目 5.1.2 忆 中 的 短信 文 : 


System.out.println(tagger.tagString("AFAIK she H8 cth!")); 
System.out.println(tagger.tagString( 
"BTW had a GR8 tym at the party BBIAM.")); 


结果 如 下 : 


AFAIK NNP she PRP H8 VBP cth! NN 
BTW UH had VBD a DT GR8 NNP tym NNP at IN the DT party NN BBIAM. NNP 


5.22.3 ”使 用 Stanford 流 水 线 进行 标注 


我 们 已 经 在 前 面 若 干 例子 中 使 用 了 Stanford 流 水 线 。 在 这 个 例子 中 ， 我 们 将 使 用 Stanford 流 水 线 获取 词性 标注 。 正 如 我 们 之 
前 使 用 Stanford API 的 例子 中 ， 我 们 创建 一 个 基于 一 组 注释 的 流水 线 : tokenize、ssplit 和 pos。 


这 些 将 对 文本 进行 分 词 ， 然 后 分 隅 成 句子 ， 最 后 获取 词性 标注 : 


Properties props = new Properties(); 
props.put("annotators", "tokenize, ssplit, pos"); 
StanfordCoreNLP pipeline - new StanfordCoreNLP (props); 


我 们 将 使 用 thesentence 变 量 作为 要 处 理 的 文字 并 放 到 注释 里 。 调 用 流水 线 的 annotate 方 法 ， 如 下 所 示 : 


Annotation document = new Annotation(theSentence); 
pipeline.annotate (document); 


流水 线 可 以 执行 不 同类 型 的 处 理 ，CoreMap 对 象 的 列表 用 来 访问 单词 和 标注 。 使 用 Annotation 类 的 get 方 法 返回 句子 的 列 
表 ， 如 下 所 示 : 


List«CoreMap» sentences = 
document.get(SentencesAnnotation.class); 


可 以 使 用 其 get 方 法 访问 CoreMap 对 象 的 内 容 。 该 方法 的 参数 是 所 需 信息 的 类 。 下 面 的 代码 示例 使 用 TextAnnotation 类 可 访 
问 词 项 ， 使 用 PartOfSpeechAnnotation 类 可 查找 词性 标注 ， 并 列 出 了 每 个 句子 中 的 每 个 单词 及 其 标注 : 


for (CoreMap sentence : sentences) { 
for (CoreLabel token sentence.get(TokensAnnotation.class)) { 


String word - token.get(TextAnnotation.class); 


String pos = token.get(PartOfSpeechAnnotation.class); 


System.out.print(word + "/" + pos + " "); 


| 


System.out.println(); 


结果 如 下 : 
The/DT voyage/NN of/IN the/DT Abraham/NNP Lincoln/NNP was/VBD for/IN a/DT 
long/JJ time/NN marked/VBN by/IN no/DT special/JJ incident/NN ./. 


流水 线 可 以 使 用 其 他 选项 来 控制 标注 器 如 何 工 作 。 例 如 ， 默 认 情 况 下 使 用 english-left3words-distsim.tagger 标 注 器 模型 。 我 
们 可 以 使 用 pos.model 属 性 来 指定 一 个 不 同 的 模型 ， 如 下 所 示 。 上 此外， 还 有 一 个 pos.maxlen 属 性 来 控制 句子 的 最 大 数量 : 


props.put ("pos.model", 
"C:/.../Models/english-caseless-left3words-distsim.tagger") ; 


有 了 时 使 用 XML 格 式 文件 是 很 有 用 的 。 可 以 使 用 StanfordCoreNLP 类 的 xmlPrint 万 法 写 出 这 样 的 XML 文 件 。 该 万 法 的 第 一 个 参 
数 是 要 显示 的 注释 。 它 的 第 二 个 参数 是 要 写 入 的 OutputStream 对 象 。 看 下 面 的 代码 ， 标 注 结果 将 写 到 标准 输出 。 这 里 需要 使 用 


try-catch 块 来 处 理 1O 异 常 : 


try { 
pipeline.xmlPrint (document, System.out); 


} catch (IOException ex) { 
// Handle exceptions 


部 分 结果 如 下 所 示 。 只 列 出 了 前 两 个 单词 和 最 后 一 个 单词 。 每 个 词 项 标注 包含 这 个 单词 、 其 位 置 及 其 词性 标注 


Ab =A 


<?xml version="1.0" encoding="UTF-8"?> 


<?xml-stylesheet href="CoreNLP-to-HTML.xsl" type-"text/xsl"?» 


«root» 


«document» 


«sentences» 

«sentence id="1"> 

«tokens» 

«token id="1"> 

<word>The</word> 
<CharacterOffsetBegin>0</CharacterOffsetBegin> 
«CharacterOffsetEnd»3«/CharacterOffsetEnd» 
<POS>DT</POS> 


</token> 
<token id="2"> 


<word>voyage</word> 
«CharacterOffsetBegin»4-/CharacterOffsetBegin» 
<CharacterOffsetEnd>10</CharacterOffsetEnd> 
<POS>NN</POS> 


</token> 


<token id="17"> 

<word>.</word> 
<CharacterOffsetBegin>83</CharacterOffsetBegin> 
<CharacterOffsetEnd>84</CharacterOffsetEnd> 
<POS>.</POS> 

</token> 

</tokens> 

</sentence> 

</sentences> 

</document> 


</root> 


prettyPrint75;Z5xmlPrint/57 X284 : 


pipeline.prettyPrint(document, System.out); 


但 是 输出 不 是 很 好 看 ， 如 下 所 示 。 先 显示 原始 句子 ， 其 后 跟着 显示 每 个 蛙 词 及 其 位 置 和 标注 。 输 出 已 被 格式 化 ， 使 其 更 具有 可 


The voyage of the Abraham Lincoln was for a long time marked by no 
special incident. 


[Text-The CharacterOffsetBegin=0 CharacterOffsetEnd-3 PartOfSpeech-DT] 


[Text-voyage CharacterOffsetBegin-4 CharacterOffsetEnd-10 
PartOfSpeechzNN] 


[Text=of CharacterOffsetBegin-11 CharacterOffsetEnd-13 PartOfSpeech-IN] 
[Text-the CharacterOffsetBegin-14 CharacterOffsetEnd-17 PartOfSpeech-DT] 


[Text-Abraham CharacterOffsetBegin-18 CharacterOffsetEnd-25 
PartOfSpeechzNNP] 


[Text-Lincoln CharacterOffsetBegin-26 CharacterOffsetEnd-33 
PartOfSpeech=NNP] 


[Text=was CharacterOffsetBegin=34 CharacterOffsetEnd=37 
PartOfSpeech=VBD] 


[Text=for CharacterOffsetBegin=38 CharacterOffsetEnd=41 PartOfSpeech=IN] 
[Text=a CharacterOffsetBegin=42 CharacterOffsetEnd=43 PartOfSpeech=DT] 


[Text=long CharacterOffsetBegin=44 CharacterOffsetEnd=48 
PartOfSpeech=JJ] 


[Text=time CharacterOffsetBegin=49 CharacterOffsetEnd=53 
PartOfSpeech=NN] 


[Text=marked CharacterOffsetBegin-54 CharacterOffsetEnd-60 
PartOfSpeech=VBN] 


[Text=by CharacterOffsetBegin=61 CharacterOffsetEnd=63 PartOfSpeech=IN] 
[Text=no CharacterOffsetBegin=64 CharacterOffsetEnd=66 PartOfSpeech=DT] 


[Text-special CharacterOffsetBegin=67 CharacterOffsetEnd-74 
PartOfSpeech=JJ] 


[Text-incident CharacterOffsetBegin-75 CharacterOffsetEnd-83 
PartOfSpeechzNN] 


[Text-. CharacterOffsetBegin-83 CharacterOffsetEnd-84 PartOfSpeech-.] 


5.2.3 ”使 用 LingPipe 词 性 标注 器 


LingPipe 使 用 Tagger 接 口 来 广 持 词性 标注 。 这 个 接口 只 有 一 个 方法 : tag。 它 返回 Tagging 对 象 的 List 实 例 。 这 些 对 象 包 合 日 
词 及 其 标注 。 接 口 由 ChainCrf 和 HmmpDecoder 类 实现 。 


ChainCrf 类 使 用 马尔 可 夫 链 的 条 件 随机 场 解码 和 估计 来 确定 标注 。HmmDecoder 类 使 用 隐 马 尔 可 夫 模 型 来 进行 标注 。 接 下 来 
我 们 将 说 明 这 个 类 


HmmDecoder 类 使 用 tag 方 法 来 判断 最 有 可 能 的 (最 优 的 ) 标注 。 它 还 有 一 个 tagNBest 方 法 给 这 些 可 能 的 标注 打分 ， 然 后 返 


回 这 些 被 打分 标注 的 迭代 器 。 有 三 种 依赖 于 LingPipe 的 词性 标注 模型 ， 可 以 从 http://alias-i.com/lingpipe/web/models.html 下 


载 。 这 些 在 下 表 中 列 出 。 对 于 我 们 的 示例 ， 将 使 用 Brown 语 料 库 模式 ,: 
x ^ 
pos-en-general-brown. HiddenMarkovModel 
pos-en-bio-medpost. HiddenMarkovModel 
pos-en-bio-genia. HiddenMarkovModel 


模 型 
eG is Ail: Brown 语料库 
碳 声 生物 医学 词汇 : MedPost 语料库 
英语 生物 医学 词汇 : GENIA 语料库 


5.2.3.1 使 用 HmmDecoder 类 的 Best First 标 注 
我 们 使 用 try-with-resources 块 来 处 理 异常 和 创建 HmmDecoder 实 例 代码 ， 如 下 所 示 。 模 型 信息 是 从 文件 中 读 取 ， 然 后 作为 


HmmDecoder 构 造 器 的 参数 : 


try ( 
FilelnputStream inputStream 
new FileInputStream(getModelDir () 
+ "//pos-en-general-brown.HiddenMarkovModel"); 


ObjectInputStream objectStream = 


new ObjectInputStream(inputStream) ; ) 
(HiddenMarkovMode 1 ) 


HiddenMarkovModel hmm 
objectStream.readObject () ; 
new HmmDecoder (hmm) ; 


HmmDecoder decoder 


) catch (IOException ex) | 


// Handle exceptions 
) catch (ClassNotFoundException ex) | 


// Handle exceptions 
符 串 转 


\; 
我 们 将 对 theSentence 变 量 进行 标注 。 首 先 ， 使 用 印 欧 语系 分 词 器 进行 分 词 ， 如 下 所 示 。tokenizer 太 法 需要 把 文本 字 


数组 ， 然 后 tokenize 方 法 返回 词 项 字符 串 的 数组 : 


REE 
TokenizerFactory TOKENIZER FACTORY 


IndoEuropeanTokenizerFactory. INSTANCE ; 
theSentence.toCharArray () ; 


char[] charArray = 

Tokenizer tokenizer 
TOKENIZER FACTORY.tokenizer( 

0, charArray.length) ; 


tokenizer.tokenize(); 


charArray, 


String[] tokens - 
实际 的 标注 工作 是 由 mmDecoder 类 的 tag 方 法 进行 。 不 过 ， 这 个 方法 需要 一 个 String 词 项 的 List 实 例 。 这 个 列表 可 以 使 用 


Arrays 类 的 asList 方 法 来 创建 。Tagging 类 包含 词 项 和 标注 的 序列 : 


List«String» tokenList - Arrays.asList(tokens); 
Tagging«String» tagString = decoder.tag(tokenList); 


现在 我 们 已 经 准备 好 列 出 词 项 及 其 标注 。 下 面 的 循环 使 用 token 和 tag 方 法 来 访问 词 项 和 标注 ， 并 分 别 添加 在 Tagging 对 象 
中 。 代 码 如 下 : 


for (int i = 0; i < tagString.size(); ++i) | 
System.out.print (tagString.token(i) + "/" 
+ tagString.tag(i) + " "); 


结果 如 下 : 
The/at voyage/nn of/in the/at Abraham/np Lincoln/np was/bedz for/in a/at 


long/jj time/nn marked/vbn by/in no/at special/jj incident/nn ./. 


5.2.3.2 ”使 用 HmmDecoder 类 的 NBest 标 注 

标注 过 程 需要 考虑 到 标注 的 多 种 组 合 。HmmDecoder 类 的 tagNBest 方 法 返回 Scored-Tagging 对 象 的 迭代 器 ， 其 反映 了 不 同 
标注 置信 和 度 的 顺序 。 此 方法 需要 一 个 词 项 列表 和 所 需 结 果 的 最 大 数量 ，。 

上 面 那个 例句 没有 歧义 ， 不 能 说 明 标 注 的 多 种 组 合 。 我 们 将 使 用 下 面 这 句 话 作 为 例子 : 


String[] sentence = ["Bill", "used", "the", "force", 
"to" : " force" : "the " j "manager" ; "to" , 


"tear", "rne", "Dill", "in", "to."); 
List<String> tokenList = Arrays.asList (sentence) ; 


使 用 此 方法 时 ， 需 要 在 开始 时 声明 一 个 变量 表示 结果 数量 : 


1 
Ul 


int maxResults 


我 们 使 用 上 一 节 中 创建 的 qdecoder 对 象 ， 对 其 使 用 tagNBest 方 法 ， 如 下 所 示 : 


Iterator<ScoredTagging<String>> iterator = 
decoder.tagNBest (tokenList, maxResults) ; 


迭代 器 允许 获取 每 5 个 不 同 的 分 数 。ScoredTagging 类 有 个 score 方 法 ， 其 返回 值 可 以 反映 其 标注 的 好 坏 。 在 下 面 的 代码 中 ， 


使 用 printf 语 句 显示 这 个 分 数 。 后 面 跟着 一 个 循环 列 出 词 项 及 其 标注 。 显 示 的 结果 是 一 个 标注 的 得 分 及 市 有 标注 的 单词 序列 : 


while (iterator.hasNext()) { 


ScoredTagging«String» scoredTagging - iterator.next(); 
System.out.printf("Score: %7.3f Sequence: ", 


scoredTagging.score()); 
for (int i = 0; i < tokenList.size(); ++i) { 
System.out.print (scoredTagging.token(i) + "/" 
+ scoredTagging.tag(i) + " "); 


| 


System.out.println(); 


结果 如 下 。 请 注意 ， 单 词 “force” 可 以 有 nn、jj 或 vb 三 种 标注 : 


Score: -148.796 Sequence: Bill/np used/vbd the/at force/nn to/to force/ 
vb the/at manager/nn to/to tear/vb the/at bill/nn in/in two./nn 


Score: -154.434 Sequence: Bill/np used/vbn the/at force/nn to/to force/ 
vb the/at manager/nn to/to tear/vb the/at bill/nn in/in two./nn 


Score: -154.781 Sequence: Bill/np used/vbd the/at force/nn to/in force/ 
nn the/at manager/nn to/to tear/vb the/at bill/nn in/in two./nn 


Score: -157.126 Sequence: Bill/np used/vbd the/at force/nn to/to force/ 
vb the/at manager/jj to/to tear/vb the/at bill/nn in/in two./nn 


Score: -157.340 Sequence: Bill/np used/vbd the/at force/jj to/to force/ 
vb the/at manager/nn to/to tear/vb the/at bill/nn in/in two./nn 


5.2.3.3 ”使 用 HmmDecoder 类 判断 标注 的 置信 和 度 


可 利用 格子 结构 进行 备 选 单词 顺序 的 统计 分 析 。 这 种 结构 代表 其 向 前 /向 后 的 分 数 。HmmDecoder 类 的 tagMargina| 方 法 返 
一 个 TagLattice 类 的 实例 ， 它 代表 一 个 格子 。 


我 们 可 以 使 用 ConditionalClassification 类 的 实例 检查 每 个 格子 的 词 项 。 在 以 下 示例 中 ，tagMarginal 方 法 返回 一 个 
TagLattice 实 例 。 循 环 用 于 获取 每 个 格子 的 词 项 的 ConditionalClassification 实 例 。 


我 们 使 用 在 上 一 方 中 开 友 的 同一 个 tokenList 实 例 : 


TagLattice«String» lattice = decoder.tagMarginal (tokenList) ; 
for (int index = 0; index < tokenList.size(); index++) { 
ConditionalClassification classification - 
lattice.tokenClassification (index) ; 


ConditionalClassification 类 有 score 方 法 和 category 万 去。score 方 法 返回 给 定 类 别 的 相对 分 值 。category 方 法 返回 这 个 标注 
的 类 别 。 词 项 的 得 分 和 类 别 如 下 所 示 : 


System.out.printf("$-8s",tokenList.get(index)); 


for (int i = 0; i < 4; ++i) { 
double score = classification.score(i); 
String tag = classification.category (i); 
System.out.printf("$7.3f/$-3s ",score,tag) ; 
| 
System.out.println() ; 
输出 结果 如 下 所 示 : 
Bill 0.974/np 0.018/nn 0.006/rb 0.001/nps 
used 0.935/vbd 0.065/vbn 0.000/jj 0.000/rb 
the 1.000/at 0.000/33 0.000/pps —|0.000/pp$$ 
force 0.977/nn 0.016/jj 0.006/vb 0.001/rb 
to 0.944/to 0.055/in 0.000/rb 0.000/nn 
force 0.945/vb 0,053/nn 00027 rb 00017313 
the 1.000/at 0.000/jj 0.000/vb 0.000/nn 
manager 0.982/nn 0.018/jj 0.000/nn$ 0.000/vb 
to 0.988/to D.012/i1m 0.000/rb 0.000/nn 
tear 0.991/vb 0.007/nn 0.001/rb 0.001/j3j 
the 1.000/at 0.000/jj 0.000/vb 0.000/nn 
bill 0.994/nn 0.003/3j3 0.002/rb 0.001/nns 
in 0.990/in 0.004/rp 0.002/nn 0.001/jj 
two. 0.960/nn 0.013/np 0.011/nns 0.008/rb 
5.24 训练 OpenNLP 词 性 标注 模型 


训练 一 个 OpenNLP POSModel 的 过 程 与 前 面 训 练 示例 类 似 。 这 需要 一 个 训练 文件 上 且 要 足够 大 ， 并 且 是 一 个 高 质量 的 样本 集 。 
在 训练 文件 中 的 每 一 个 语句 都 必须 在 一 行 里 ， 每 行 由 一 个 词 项 、 字 稚 下 划 线 及 其 标注 组 成 。 


下 面 的 训练 数据 是 小 说 《海底 两 万 里 》 第 5 草 中 的 前 五 句 话 。 昌 然 这 一 样本 集 并 不 大 ， 但 很 容易 创建 并 且 足 以 满足 我 们 的 目 
的 。 


尼 补 保存 在 名 为 sample.train 的 文件 中 : 


The DT voyage NN of IN the DT Abraham NNP Lincoln NNP was VBD for IN a DT 
long JJ time NN marked VBN by IN no DT special JJ incident. NN 


But CC one CD circumstance NN happened VBD which WDT showed VBD the DT 
wonderful JJ dexterity NN of IN Ned NNP Land, NNP and CC proved VBD what 
WP confidence NN we PRP might MD place VB in IN him. PRPS$ 


The DT 30th JJ of IN June, NNP the DT frigate NN spoke VBD some DT 
American NNP whalers, , from IN whom WP we PRP learned VBD that IN they 
PRP knew VBD nothing NN about IN the DT narwhal. NN 


But CC one CD of IN them, PRP$ the DT captain NN of IN the DT Monroe, NNP 
knowing VBG that IN Ned NNP Land NNP had VBD shipped VBN on IN board NN 
the DT Abraham NNP Lincoln, NNP begged VBD for IN his PRP$ help NN in IN 
chasing VBG a DT whale NN they PRP had VBD in IN sight. NN 


我 们 将 演示 如 何 使 用 POSModel 类 的 train 方 法 创建 模型 ， 以 及 如 何 将 模型 保存 到 一 个 文件 中 。 我 们 先 从 声明 POSModel 类 的 
实例 变量 开始 : 


POSModel model = null; 


用 try-with-resources 块 打开 示例 文件 : 


try (InputStream dataIn = new FileInputStream("sample.train");) | 
) catch (IOException e) { 


// Handle excpetions 


创建 PlainTextByLineStream 类 的 实例 ， 并 与 WordTagSampleStream 类 用 于 创建 ObjectStream<POSSample> 实 例 。 这 是 
train 万 法 所 需 样本 数据 的 格式 : 


ObjectStream«String» lineStream = 

new PlainTextByLineStream(dataIn, "UTF-8"); 
ObjectStream«POSSample» sampleStream - 

new WordTagSampleStream(lineStream); 


train 方 法 的 参数 为 样本 所 属 语言 、 样 本 数据 字 节 流 、 训 练 参数 ， 以 及 所 需 字 典 (可 以 为 空 ) ， 如 下 所 示 : 


model = POSTaggerME.train("en", sampleStream, 
TrainingParameters.defaultParams(), null, null); 


此 过 程 的 输出 是 见长 的 。 为 了 市 省 空间 ， 下 面 的 输出 已 有 所 人 省略: 


Indexing events using cutoff of 5 


Computing event counts... done. 90 events 
Indexing... done. 
Sorting and merging events... done. Reduced 90 events to 82. 
Done indexing. 
Incorporating indexed data for training... 
done. 
Number of Event Tokens: 82 
Number of Outcomes: 17 
Number of Predicates: 45 
.. done. 
Computing model parameters ... 
Performing 100 iterations. 
1: ... loglikelihood--254.98920096505964 0.14444444444444443 
2 ... loglikelihood--201.19283975630537 0.6 
3: ... loglikelihood--174.8849213436524 0.6111111111111112 
4: ... loglikelihood--157.58164262220754 0.6333333333333333 
5 ... loglikelihood--144.69272379986646 0.6555555555555556 
99: ... loglikelihood--33.461128002846024 0.9333333333333333 
100: ... loglikelihood--33.29073273669207 0.9333333333333333 


EET REI PCE, RIEA RAYS. BUSES TBRRIPOSModelZ&BUserialize75;Z UR E SI 
en pos verne.bin X (/Frh: 


try (OutputStream modelOut = new BufferedOutputStream( 
new FileOutputStream(new File("en pos verne.bin")));) { 


model.serialize (modelOut) ; 
} catch (IOException e) | 
// Handle exceptions 


5.3 “本章 小 结 


词性 标注 是 一 个 强大 的 技术 ， 用 于 标注 一 个 句子 的 语法 成 分 。 它 为 下 游 任务 提供 了 有 用 的 信息 ， 如 问题 分 析 和 文本 情感 分 析 。 
在 第 7 章 中 ， 我 们 仍 将 讨论 这 一 话题 。 


由 于 大 多 数 语言 中 都 有 必 义 性 ， 标 注 不 是 一 个 容易 的 过 程 ， 万 其 是 趣 来 越 多 地 使 用 缩 略 语 使 这 个 过 程 更 加 困难 。 笠 运 的 是 ， 有 
模型 可 以 很 好 地 做 到 识别 这 种 类 型 的 文本 。 然 而 ， 随 看 新 的 术语 和 倡 语 出 现 ， 这 些 模 型 必须 不 断 更 新 。 


我 们 研究 了 OpenNLP、Stanford API 和 LingPipe 所 支持 的 词性 标注 功能 。 这 些 库 使 用 了 几 种 不 同类 型 的 方法 (包括 基于 规则 
和 基于 模型 的 方法 ) 进行 词性 标注 。 我 们 看 到 使 用 字典 可 以 提高 标注 效果 。 


我 们 简要 介绍 了 模型 的 训练 过 程 。 预 标注 过 的 示例 文本 被 输入 并 处 理 后 ， 再 形成 模型 作为 输出 。 虽 然 我 们 没有 涉及 该 模型 的 验 
证 ， 但 可 参照 前 面 的 章节 完成 对 其 的 验证 。 


各 种 词性 标注 的 方法 可 以 基于 许多 因素 进行 比较 ， 比 如 其 准确 性 和 运行 速度 。 虽 然 本 草 没 有 涉及 这 些 问 题 ， 但 有 众多 的 网 络 资 
源 可 以 使 用 。 可 以 在 http://mattwilkens.com/2008/11/08/evaluating-pos-taggers-speed/ 找 到 对 它们 运行 速度 的 比较 研究 。 


在 下 一 革 中 ， 我 们 将 研究 基于 文档 内 容 的 分 类 方法 。 


第 6 草 MADR 


本 章 将 介绍 如 何 使 用 各 种 NLP 的 应 用 程序 接口 (API) 来 进行 文本 分 类 。 与 文本 分 类 不 同 ， 文 本 聚 类 进行 识别 时 是 不 依靠 预先 
定义 的 类 别 的 。 相 反 ， 文 本 分 类 需要 预先 定义 类 别 ， 它 使 用 标注 来 表明 文本 的 类 型 ， 这 将 是 本 章 讨论 的 重点 。 


对 于 文本 分 类 问题 ， 通 常 的 做 法 是 首先 训练 一 个 模型 ， 然 后 对 该 模型 进行 验证 ， 之 后 使 用 模型 进行 文档 分 类 。 本 草 我 们 把 重点 
放 在 训练 模型 和 使 用 模型 上 。 


文档 可 以 根据 它 的 多 种 属性 划分 成 不 同 的 类 别 ， 比 如 文档 主题 、 文 档 类 型 、 友 布 时 间 、 作 者 、 使 用 的 语言 以 及 阅读 级 别 等 。 某 
些 分 类 方法 需要 人 工 对 样本 数据 进行 标注 。 


情感 分 析 是 文本 分 类 的 一 种 ， 它 可 以 判断 作者 通过 哪 段 文字 向 读者 表明 其 持 有 的 是 正面 态度 还 是 负面 态度 。 本 草 中 ， 我 们 也 会 
探讨 相关 技术 来 实现 此 类 分 析 ，。 


6.1 MATRA 


文本 分 类 可 用 于 多 种 用 途 : 
` 垃圾 邮件 检测 

:作者 身份 识别 

- 情感 分 析 


年龄、 性 别 识别 


` 文档 主题 识别 
语言 识别 


对 于 多 数 用 户 来 说 ， 垃 圾 邮件 是 令 人 头痛 的 问题 。 如 果 一 封 电 子 邮件 被 划分 为 垃圾 邮件 ， 它 将 会 被 移 到 垃圾 邮件 目录 中 。 通 过 
分 析 一 段 文 本 消息 并 根据 菏 些 属性 可 以 判断 该 邮件 是 否 为 垃圾 邮件 。 这 些 属性 可 以 是 错误 的 拼写 、 不 正确 的 邮件 地 址 和 非 标准 的 
URL。 


文本 分 类 还 可 以 用 来 识别 作者 的 身份 。 这 已 经 被 广泛 用 于 识别 历史 文档 的 作者 ， 比 如 《联邦 论 》 (The Federalist Papers) 和 
《原色 》 (Primary Colors) 的 作者 识别 。 


情感 分 析 是 一 项 可 以 识别 文本 中 作者 态度 的 技术 。 情 感 分 析 在 影评 领域 已 经 非常 流行 ， 除 此 之 外 ， 它 也 可 用 于 分 析 几 乎 所 有 的 
产品 评价 内 容 ， 这 可 以 帮助 企业 更 好 地 评估 它们 的 闫 品 。 通 弟 文 本 中 包含 正面 或 负面 的 属性 。 情 感 分 析 又 称 为 观点 提取 、 观 点 挖掘 
或 主观 性 分 析 。 股 市 的 消费 者 信心 以 及 表现 都 可 以 通过 推 符 信息 来 源 或 其 他 资源 进行 预测 。 


文本 分 类 还 可 以 用 来 推测 作者 的 年 龄 、 性 别 ， 并 能 挖掘 天 于 作者 更 多 的 信息 。 代 词 、 限 定 词 和 名 词 短 语 的 数量 经 党 被 用 于 判断 
作者 的 性 别 。 文 性 倾 同 于 使 用 更 多 的 代词 ， 而 男性 倾 癌 于 使 用 更 多 的 限定 词 。 


当 我 们 需要 整理 大 量 文 档 时 ， 判 断 文本 主题 是 非常 有 用 的 。 虽 然 搜索 引擎 也 可 以 处 理 类 似 问 题 ， 但 它 只 是 简单 地 使 用 标注 云 等 
万 法 完成 文档 的 归 类 。 标 注 云 是 一 组 关键 词 的 视觉 化 摘 述 ， 用 于 体现 每 个 天 键 词 出 现 的 相对 频率 。 


下 图 是 一 个 由 IBM 词 云 生 成 器 (IBM Word Cloud Generator, http://www.softpedia.com/get/Office-tools/Other- 
Office-Tools/IBM-Word-Cloud-Generator.shtml) 创建 的 标注 云 示例 。 访 示例 也 可 通过 以 下 链接 获 
取 : https://upload.wikimedia.org/wikipedia/commons/9/9e/Foundation- 


| word cloud without headers and quotes.png。 
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文本 分 类 也 支持 文档 语言 的 识别 。 许 多 NLP 问 题 是 需要 应 用 特定 语言 模型 的 ， 文 档 语 言 识别 分 析 对 于 这 类 问题 是 非常 有 用 的 。 


在 情感 分 析 中 ， 我 们 关注 的 是 某 类 人 群 对 特定 产品 或 主题 持 有 的 人 态度。 通过 这 项 技 术 ， 我 们 可 以 了 解 到 市 民 对 于 当地 球 队 的 表 


现 是 否 满 意 ， 他 们 可 能 会 和 球 队 的 管理 层 持 有 不 同意 见 。 


情感 分 析 可 以 目 动 判断 消费 者 对 于 产品 的 满意 度 ， 然 后 以 更 直观 的 方式 展现 出 来 。 例 如 下 图 所 示 的 是 Kelley Blue Book 网 站 友 
布 的 消费 者 关于 2014 宗 凯美瑞 (Camry) 的 评论 (http://www.kbb.com/toyota/camry/2014-toyota- 
camry/r=471659652516861060) 。 


pe What's new = Favorite Features [$] Pricing Notes AM}, Consumer Reviews 


2014 Toyota Camry Expert Review 


By KBB.com Editors 
KBB Expert Rating: 74 


For 2014, the Toyota Camry represents the best example ; 

of the optimum 4-door sedan for the greatest number of KBB Expert Ratings 
potential buyers. Everything about it settles it smack in Overall Rating 

the middle ground of what the vast majority of buyers — 0074 
want in a sedan and, therefore, while not being the most Driving Dynamics 

exciting thing on the road it definitely has enormous and — 07.2 
well-deserved appeal. The models range from the base L RES 

to a sporty SE Sport to the very luxurious XLE, and 

include a highly-efficient hybrid model. Midsize sedans are — iL 
the heart of the car market and in 2014, the segment is Design: Interior & Exterior 
more competitive than ever, with highly-attractive models —-—— 160 
from Honda, Nissan, Kia, Hyundai, Mazda, Chevrolet and Value 

Ford, but the 2014 Camry remains the top choice for the — 78 


reatest number of buyers. 
g Y Safety 


—- 9.8 


比如 像 Overall Rating (RAFA) 和 Value (价格 ) 这 些 属性 都 是 通过 柱状 图 以 及 数值 来 展现 的 。 这 些 数值 是 可 以 通过 情感 
分 析 计 算得 到 的 。 


情感 分 析 也 可 用 在 句子 、 短 语 或 整 篇 文档 中 。 它 可 以 通过 多 种 形式 呈现 : 正面 、 负 面 ， 或 者 1 ~ 10 的 数值 ， 甚 至 可 以 通过 更 多 
复杂 的 属性 类 别 来 呈现 。 在 单 负 或 文档 中 ， 更 复杂 的 是 对 于 不 同 的 主题 有 不 同 的 情感 。 


如 何 判断 词汇 中 所 包 合 的 情绪 ?这 个 问题 可 以 使 用 情感 词典 来 解决 。 这 里 的 情感 词典 是 包含 不 同 词语 合 义 的 字典 。General 
Inquirer (http://www.wjh.harvard.edu/~inquirer/) 束 是 这 样 的 一 个 词典 ， 它 收录 了 1915 个 积极 情绪 词 ， 同 时 也 收录 了 含有 其 
他 属性 (QAR. Tait. SRN. SOLS) 的 单词 。 类 似 的 词汇 库 还 有 很 多 ， 比 如 MPQA Subjectivity Cues 
Lexicon (http://mpgqa.cs.pitt.edu/) 。 


实践 中 ， 我 们 有 时 需要 创建 自己 的 一 个 词典 ， 这 通常 可 以 通过 半 监 督学 习 来 完成 。 在 此 过 程 中 ， 使 用 部 分 标注 的 样本 或 者 规则 
来 完成 词典 的 创建 。 这 种 情形 适用 于 词典 和 竺 解决 问题 不 能 很 好 匹配 的 情况 。 


我 们 所 关注 的 不 仪 是 从 文本 中 获取 相关 情绪 ， 同 时 也 天 注 相 关 属 性 的 判断 ， 有 时 也 称 为 情感 对 象 。 让 我 们 来 考虑 下 面 这 个 例 


"The ride was very rough but the attendants did an excellent job of making us comfortable." 


这 个 句子 包含 两 类 情绪 : roughness (RÆ) 和 comfortable (E) ， 前 者 是 负面 情绪 ， 后 者 是 正面 情绪 。 正 面 情 绪 的 对 象 
(或 属性 ) 是 job (ARS) ， 而 负面 情绪 的 对 象 是 ride (旅程 ) 。 


6.3 ”文本 分 类 技术 


文本 分 类 是 指 给 定 一 个 特定 文档 ， 判 断 其 是 否 属 于 苹 个 类 别 。 文 本 分 类 包含 两 个 基本 的 技术 : 


基于 规则 的 分 类 综合 利用 词组 和 其 他 一 些 属性 ， 这 些 属性 是 根据 专家 制定 的 规则 组 织 的 ， 它 们 对 于 分 类 非常 有 效 ， 但 创建 过 程 
相当 耗 时 。 


监督 机 器 学 习 (Supervised Machine Learning, SML) 使 用 标注 的 训练 文档 创建 模型 。 这 个 模型 通常 称 为 “分 类 器 ”。 目 前 
有 很 多 不 同 的 机 器 学 习 技 术 ， 比 如 朴素 贝 叶 斯 (Nave Bayes). xit. (Support Vector Machine) 、kK- 近 邻 算 法 (k- 


nearest neighbor) 等 。 


本 书 不 会 详细 介绍 这 些 方 法 的 原理 ， 有 兴趣 的 读者 可 以 参阅 相关 技术 资料 。 


6.4 使 用 API 进 行文 本 分 类 


本 世 将 通过 使 用 OpenNLP、Stanford API 和 LingPipe 来 演示 各 种 分 类 方法 。 我 们 将 看 重 介绍 LingPipe， 因 为 它 提 供 了 多 种 不 
同 的 分 类 万 法 。 


6.4.4 _ OpenNLP 的 使 用 


DocumentCategorizer 接 口 指定 了 用 于 分 类 处 理 的 方法 。 该 接口 由 Document-CategorizerME 类 实现 ， 访 类 使 用 最 大 业 模 型 
框架 将 文本 划分 到 预先 定义 的 类 别 中 。 接 下 来 将 会 介绍 : 


+ 模型 的 训练 


` 模型 的 使 用 


6.4.1.1 ”训练 OpenNLP 分 类 模型 


首先 ， 我 们 需要 训练 自己 的 模型 ， 因 为 OpenNLP 不 提供 预先 建立 的 模型 。 训 | 练 过 程 首 先 要 创建 训练 样本 文件 ， 然 后 通过 
DocumentCategorizerME 完 成 实际 的 训练 。 由 此 创建 的 模型 通常 被 保存 到 文件 中 ， 以 便 后 续 使 用 。 


训练 样本 文件 的 格式 由 许多 行 组 成 ， 其 中 每 行 代表 一 个 文档 。 每 行 的 第 一 个 词组 表示 其 所 属 类 别 。 类 别 之 后 由 空格 隔 开 一 段 文 
本 。 以 下 是 “ 狗 ” (dog) 类 的 一 个 样本 示例 : 


dog The most interesting feature of a dog is its ... 


为 了 演示 训练 过 程 ， 我 们 创建 了 en-animals.train 文 件 ， 其 中 包 合 两 个 类 别 : “eR” (cat) 类 和 “ 狗 ” (dog) 类 。 关 于 训练 
文本 ， 我 们 选取 维基 百科 中 的 部 分 内 容 。 对 于 “ 狗 ” (dog) 类 (https://en.wikipedia.org/wiki/Dog) ， 选 取 “ 宠 物 狗 ” (As 
Pets) 一 节 。 关 于 “ 猫 ” (cat) 类 (http://en.wikipedia.org/wiki/Cats and humans) ， 我 们 选取 “宠物 ” (Pet) 一 节 以 
及 “家 养 品种 ” (Domesticated varieties) 一 节 中 的 第 一 段 摘 述 。 我 们 去 择 了 文本 中 的 数字 型 的 参考 文献 。 


en-animals.train 文 件 中 每 行 的 部 分 文字 如 下 : 


dog The most widespread form of interspecies bonding occurs 

dog There have been two major trends in the changing status of 

dog There are a vast range of commodity forms available to 

dog An Australian Cattle Dog in reindeer antlers sits on Santa's lap 


dog A pet dog taking part in Christmas traditions 
dog The majority of contemporary people with dogs describe their 
dog Another study of dogs' roles in families showed many dogs have 


dog According to statistics published by the American Pet Products 


dog The latest study using Magnetic resonance imaging (MRI) 

cat Cats are common pets in Europe and North America, and their 

cat Although cat ownership has commonly been associated 

cat The concept of a cat breed appeared in Britain during 

cat Cats come in a variety of colors and patterns. These are physical 


cat A natural behavior in cats is to hook their front claws 
periodically 

cat Although scratching can serve cats to keep their claws from 
growing 


在 创建 训练 数据 时 ， 使 用 大 量 的 样本 是 非常 重要 的 。 对 于 某 些 分 析 来 蜗 ， 我 们 这 里 使 用 的 数据 量 是 不 够 的 。 但 是 ， 接 下 来 我 们 
会 看 到 ， 即 使 这 样 ， 这 些 数据 生成 的 模型 已 经 能 准确 地 进行 分 类 了 。 


DoccatModel 类 用 于 文本 的 归 类 和 分 类 。 根 据 标注 的 文本 ， 调 用 train 方 法 训练 模型 。train 方 法 有 两 个 参数 : 第 一 个 参数 是 
String 类 型 ， 用 于 表示 语言 ， 第 二 个 参数 是 ObjectStream<DocumentSample> 类 型 ,存放 的 是 训练 数据 。DocumentSample 实 


例 存 帮 的 是 标注 的 文本 及 其 所 属 类 别 |。 


在 下 面 的 例子 中 ， 使 用 en-animal.train 训 练 模型 ， 它 的 输入 流 用 来 创建 一 个 PlainTextByLineStream 实 例 ， 接 着 将 其 转换 成 
ObjectStream<DocumentSample> 类 型 ， 然 后 调用 train 方 法 。 这 上 段 代 码 需 要 使 用 try-with-resources 来 处 理 异 常 。 另 外 ， 我 们 
还 创建 了 输出 流 用 来 保存 该 模型 : 


DoccatModel model = null; 
try (InputStream dataIn - 
new FileInputStream("en-animal.train"); 
OutputStream dataOut - 
new FileOutputStream("en-animal.model");) { 
ObjectStream<String> lineStream 
= new PlainTextByLineStream(dataIn, "UTF-8"); 
ObjectStream«DocumentSample» sampleStream - 
new DocumentSampleStream(lineStream); 
model = DocumentCategorizerME.train("en", sampleStream) ; 


} catch (IOException e) { 
// Handle exceptions 


| 


输出 结果 如 下 。 为 节省 空间 ， 这 里 省 略 了 部 分 信息 : 


Indexing events using cutoff of 5 


Computing event counts... done. 12 events 
Indexing... done. 
Sorting and merging events... done. Reduced 12 events to 12. 
Done indexing. 
Incorporating indexed data for training... 
done. 
Number of Event Tokens: 12 
Number of Outcomes: 2 
Number of Predicates: 30 
.done. 
Computing model parameters ... 
Performing 100 iterations. 
1: ... loglikelihood--8.317766166719343 0.75 
2 loglikelihood--7.1439957443937265 0.75 
3 loglikelihood=-6.560690872956419 0.75 
4: ... loglikelihood=-6.106743124066829 0.75 
5 loglikelihood=-5.721805583104927 0.8333333333333334 
6 loglikelihood=-5.3891508904777785 0.8333333333333334 
7 loglikelihood=-5.098768040466029 0.8333333333333334 


98: ... loglikelihood--1.4117372921765519 1.0 
99: ... loglikelihood=-1.4052738190352423 1.0 
100: ... loglikelihoods-1.398916120150312 1.0 


这 里 显示 的 模型 是 通过 serialize 万 法 保存 的 。 其 保存 为 en-animal.model 文 件 ， 可 以 利用 之 前 提 到 过 的 try-with-resources 块 
打开 : 


OutputStream modelOut = null; 
modelOut = new BufferedOutputStream(dataOut) ; 
model.serialize(modelOut); 


6.4.1.2 ”使 用 DocumentCategorizerME 进 行 分 类 


一 旦 模型 训 | 练 完成 ， 我 们 丈 可 以 使 用 DocumentCategorizerME 类 进行 文本 分 类 了 。 这 需要 读 取 模型 ,创建 
DocumentCategorizerME 类 实例 ， 然 后 调用 categorize 万 法 获取 竺 分 类 文本 所 属 类 别 的 一 组 概率 值 。 


由 于 涉及 文件 读 取 ， 这 里 需 党 处理: 


try (InputStream modelIn = 
new FileInputStream(new File("en-animal.model"));) { 


) catch (IOException ex) { 
// Handle exceptions 


通过 输入 流 可 以 创建 DoccatModel 的 实例 和 DocumentCategorizerME 类 ， 如 下 所 示 : 


DoccatModel model = new DoccatModel (modelIn); 
DocumentCategorizerME categorizer - 


new DocumentCategorizerME (model); 


调用 categorize 方 法 需要 传 入 一 个 字符 串 类 型 的 参数 ， 其 返回 结果 是 一 组 双 精 度 浮 点 数 ， 每 个 数值 表示 待 分 类 文本 属于 某 个 类 
别 的 似 然 值 。 


DocumentCategorizerME 类 的 getNumberOfCategories 方 法 返回 模型 中 类 别 的 个 数 。DocumentCategorizerME 类 的 
getCategory 方 法 根据 给 定 的 索引 返回 所 对 应 的 类 别 。 


在 下 面 这 段 代码 中 ， 我 们 使 用 了 这 些 万 法 来 显示 每 个 类 别 及 其 对 应 的 似 然 值 : 


double[] outcomes = categorizer.categorize(inputText); 

for (int i = 0; i«categorizer.getNumberOfCategories(); i++) { 
String category - categorizer.getCategory(i); 
System.out.println(category + " - " + outcomes[il); 


在 测试 阶段 ， 我 们 从 维基 有 自 科 中 选取 关于 《绿野仙踪 》 主 人 公 桃 乐 丝 (Dorothy) 的 狗 托 托 (Toto) 的 一 段 文 字 
(https://en.wikipedia.org/wiki/Toto %280z%29) 。 这 里 使 用 “经 典 书籍 ” (The classic books) 一 节 中 的 第 一 句 ， 声 明 如 
下 : 


String toto = "Toto belongs to Dorothy Gale, the heroine of " 
+ "the first and many subsequent books. In the first " 


"book, he never spoke, although other animals, native " 
"to Oz, did. In subsequent books, other animals " 
"gained the ability to speak upon reaching Oz or " 


+ + + + 


"Similar lands, but Toto remained speechless."; 


对 于 “ 猫 ” 类 的 测试 ,我 们 选取 了 维基 百科 文章 中 “三 色 猫 ” (Tortoiseshell and Calico) 一 节 的 第 一 句 话 
(http://en.wikipedia.org/wiki/Cats and humans) ， 并 声明 如 下 : 


String calico = "This cat is also known as a calimanco cat or " 
+ "Clouded tiger cat, and by the abbreviation 'tortie'. " 
+ "In the cat fancy, a tortoiseshell cat is patched " 
- "over with red (or its dilute form, cream) and black " 
+ "(or its dilute blue) mottled throughout the coat."; 


通过 测试 关于 toto 的 文本 ， 得 到 如 下 输出 结果 ， 表 明 这 段 文 本 应 该 被 归 类 为 “ 狗 ” 类 : 
dog - 0.5870711529777994 
cat - 0.41292884702220056 


而 使 用 天 于 “三 色 猫 ”的 文本 ， 则 输出 以 下 结果 : 


dog - 0.28960436044424276 
cat - 0.7103956395557574 


其 实 ， 我 们 也 可 以 直接 使 用 getBestCategory 方 法 来 得 到 最 好 的 分 类 。 诅 万 法 使 用 一 组 输出 结果 ， 然 后 返回 一 个 字符 串 。 
getAllResults 方 法 将 所 有 的 结果 以 字符 串 的 形式 返回 。 以 下 是 这 两 个 方法 的 示例 : 


System.out.println(categorizer.getBestCategory (outcomes) ) ; 
System.out.println(categorizer.getAllResults (outcomes) ) ; 


对 应 的 输出 为 : 
cat 


dog[0.2896] cat[0.7104] 


6.4.2 Stanford API 的 使 用 


Stanford API 支 持 多 种 分 类 器 。 本 节 中 ， 我 们 将 会 演示 如 何 使 用 ColumnDataClassifier 类 做 一 般 分 类 ， 以 及 利用 
StanfordCoreNLP 管 道 进行 情感 分 析 。Stanford API 文 持 的 分 类 器 有 时 不 太 容 易 使 用 。 通 过 使 用 ColumnDataClassifier 类 ， 我 们 
会 演示 如 何 分 类 盒子 的 尺寸 。 通 过 流水 线 的 使 用 ， 我 们 会 展示 如 何 判断 短语 中 包含 的 正面 或 负面 情绪 。 分 类 器 可 以 从 以 下 地 址 下 


载 : http://www-nlp.stanford.edu/wiki/Software/Classifier, 
6.4.2.1 使 用 ColumnDataClassifier 进 行 分 类 


该 分 类 器 使 用 多 个 数值 描述 数据 。 本 小 节 中 ， 我 们 通过 使 用 训练 文件 来 创建 一 个 分 类 器 ， 然 后 使 用 测试 文件 对 该 分 类 器 的 性 能 
进行 评估 。ColumnDataClassifier 类 通过 使 用 属性 文件 来 配置 分 类 器 的 创建 过 程 。 


根据 盒子 的 长 、 宽 、 局 ， 我 们 要 创建 一 个 分 类 器 用 于 盒子 的 分 类 。 其 类 别 为 : 小 、 中 、 大 。 将 盒子 特征 的 长 、 宽 、 高 作为 其 特 
征 ， 以 浮 后 数 搬 述 。 


属性 文件 指定 了 相关 参数 信息 ， 并 且 提 供 了 有 天 训练 文件 和 测试 文件 的 数据 。 许 多 属性 都 可 以 在 该 文件 中 指定 。 接 下 来 ， 我 们 
只 使 用 其 中 一 些 比 较 相关 的 属性 。 


秆 先 将 随后 要 使 用 的 属性 文件 存 为 box.prop。 第 一 组 属性 是 天 于 训练 文件 和 测试 文件 中 特征 的 个 数 。 由 于 要 用 到 三 个 数值 ， 
所 以 要 指定 三 个 realValued 列 。trainFile 和 testFile 属 性 指定 的 是 对 应 文件 的 存放 位 置 和 和 名称: 


useClassFeature-true 
l.realValued-true 
2.realValued-true 
3.realValued-true 
trainFile-.box.train 
testFile-.box.test 


训练 文件 和 测试 文件 使 用 的 是 相同 的 格式 。 每 行 包含 类 别名 称 以 及 由 制 表 符 分 隔 的 数值 。box.train 训 | 练 文件 和 box.test 测 试 文 
件 分 别 包 含 60 个 数据 和 30 个 数据 。 下 面 所 示 的 是 box.train 文 件 的 第 一 行 ， 其 类 别 是 “小 ” ， 高 度 、 宽 度 、 长 度 分 别 是 2.34、 
1.60, 1.50: 


small 2.34 1.60 1.50 


创建 分 类 器 的 代码 如 下 所 示 。 将 属性 文件 作为 构造 器 的 参数 来 创建 ColumnDataClassifier 类 的 一 个 实例 。makeClassifier 方 法 
返回 一 个 Classifier 接 口 的 实例 。 该 接口 支持 三 种 方法 ， 接 下 来 我 展示 其 中 两 种 方法 。readTrainingExamples 方 法 的 作用 是 从 训 | 练 
文件 中 读 取 训练 数据 : 


ColumnDataClassifier cdc = 
new ColumnDataClassifier("box.prop"); 

Classifier<String, String» classifier = 
cdc.makeClassifier(cdc.readTrainingExamples ("box.train")); 


这 段 代码 执行 后 ， 会 输出 大 量 信 息 。 这 里 我 们 只 选 部 分 信息 进行 讨论 。 输 出 结果 的 第 一 部 分 是 属性 文件 的 信息 : 


3.realValued = true 


testFile = .box.test 


trainFile = .box.train 


接 下 来 的 部 分 显示 数据 集 的 个 数 和 特征 的 信息 : 


Reading dataset from box.train ... done [0.1s, 60 items]. 
numDatums: 60 

numLabels: 3 [small, medium, large] 

AVEIMPROVE The average improvement / current value 
EVALSCORE The last available eval score 


Iter ## evals ## «SCALING» [LINESEARCH] VALUE TIME |GNORM| {RELNORM} 
AVEIMPROVE EVALSCORE 


PAA RaW TUERI zo PI CEE : 


Iter 1 evals 1 «D» [113M 3.107E-4] 5.985E1 0.00s |3.829E1| {1.959E-1} 


0.000E0 - 
Iter 2 evals 5 «D» [M 1.000E0] 5.949E1 0.01s |1.862E1| (9.525E-2) 3.058E- 
3 - 
Iter 3 evals 6 «D» [M 1.000E0] 5.923E1 0.01s |1.741E1| (8.904E-2) 3.485E- 
3 = 


Iter 21 evals 24 «D» [1M 2.850E-1] 3.306E1 0.02s |4.149E-1| {2.122E-3} 
1.775E-4 - 


Iter 22 evals 26 «D» [M 1.000E0] 3.306E1 0.02s 


QNMinimizer terminated due to average improvement: | newest val - 
previous val | / |newestVal| « TOL 


Total time spent in optimization: 0.07s 


此 时 ， 分 类 器 已 经 创建 完毕 可 以 使 用 了 。 接 下 来 ， 我 们 通过 测试 文件 来 验证 该 分 类 器 。 首 先 ， 使 用 ObjectBank 类 的 
getLinelterator 方 法 获取 文本 文件 的 一 行 记录 。 访 类 可 以 将 读 入 的 数据 转换 成 标准 的 格式 。getLinelterator 万 法 每 次 可 以 返回 一 行 
适用 于 分 类 器 格式 的 记录 。 该 过 程 的 循环 操作 如 下 : 

for (String line 
ObjectBank.getLineIterator("box.test", "utf-8")) { 


在 每 个 for-each 语 句 中 ， 一 个 Datum 实 例 是 由 对 应 行 记录 创建 的 ， 然 后 它 的 classOf 万 法 用 来 返回 预测 的 类 别 ， 如 下 面 代码 所 
示 。Datum 接 口 支持 包含 特征 的 对 象 ， 当 其 馈 用 作 classOf 万 法 的 参数 时 ， 分 类 器 返回 了 预测 的 类 别 |: 


Datum<String, String» datum = cdc.makeDatumFromLine (line); 
System.out.println("Datum: {" 

+ line + "]\tPredicted Category: " 

+ classifier.classOf (datum) ) ; 


这 段 代 码 执 行 后 ， 如 下 所 示 ， 测 试 文件 的 每 行 记录 经 过 处 理 ， 然 后 输出 预测 的 类 别 。 这 里 只 展示 最 初 两 行 和 最 后 两 行 的 记录 。 
分 类 器 准确 地 将 测试 数据 进行 了 分 类 : 
Datum: {small 1.33 3.50 5.43] Predicted Category: medium 
Datum: {small 1.18 1.73 3.14] Predicted Category: small 


Datum: (large £6.01 29.35 16.64] Predicted Category: large 
Datum: {large 6.76 9.66 15.44] Predicted Category: large 


如 果 只 测试 单个 记录 ， 我 们 可 以 使 用 makeDatumFromstrings 方 法 创建 一 个 Datum 实 例 。 在 下 面 的 代码 中 ， 创 建 一 个 一 维 的 
字符 串 数组 ， 其 中 每 个 元 素 是 盒子 的 相关 数据 ， 第 一 个 元 素 为 空 ， 指 代 的 是 类 别 。 然 后 将 Datum 实 例 作 为 classOf 方 法 的 参数 来 预 


String sample[] = {"", "6.90", "9.8", "15.69"}; 
Datum«String, String» datum - 

cdc.makeDatumFromStrings (sample); 
System.out.println("Category: " + classifier.classOf (datum) ) ; 


这 段 代 码 的 结果 如 下 ， 其 正确 地 预测 出 了 盒子 的 类 别 : 


Category: large 


6.4.2.2 ”使 用 Stanford 框 架 进行 情感 分 析 


本 忆 将 会 前 述 如 何 使 用 Stanford API 进 行情 感 分 析 。 我 们 会 使 用 StanfordCoreNLP 框 架 在 不 同 的 文本 上 进行 情感 分 析 。 


在 这 里 ， 我 们 使 用 三 段 不 同 的 文本 ， 其 中 review 字 符 捉 是 一 段 来 自 “ 烂 一 加” (Rotten 
Tomatoes, http://www.rottentomatoes.com/m/forrest gump/) 关于 电影 《 阿 甘 正 传 》 的 影评 : 


String review = "An overly sentimental film with a somewhat " 
+ "problematic message, but its sweetness and charm " 
+ "are occasionally enough to approximate true depth " 
+ "and grace. "; 


String sam - "Sam was an odd sort of fellow. Not prone " 
+ "to angry and not prone to merriment. Overall, " 
+ "an odd fellow."; 


String mary - "Mary thought that custard pie was the " 


+ "best pie in the world. However, she loathed " 
+ "chocolate pie."; 


执行 情感 分 析 ， 我 们 需要 使 用 一 个 如 下 所 示 的 情感 annotator， 同 时 也 需要 使 用 tokenize、ssplit 和 parse 注 解 。 其 中 ，parse 
注解 为 文本 提供 了 更 加 结构 化 的 信息 ， 这 些 将 在 第 7 章 中 讨论 : 


Properties props = new Properties(); 
props.put("annotators", "tokenize, ssplit, parse, sentiment"); 
StanfordCoreNLP pipeline - new StanfordCoreNLP (props); 


该 文本 用 来 创建 一 个 Annotation 实 例 ， 之 后 可 用 作 annotate 方 法 的 参数 来 实现 相应 操作 ， 如 下 所 示 : 


Annotation annotation = new Annotation(review); 


pipeline.annotate (annotation); 


下 面 的 数组 存放 的 是 不 同情 感 的 概率 : 


String[] sentimentText = ("Very Negative", "Negative", 
"Neutral", "Positive", "Very Positive"); 


Annotation 类 的 get 方 法 返回 一 个 实现 CoreMap 接 口 的 对 象 。 这 个 示例 中 ， 这 些 对 象 指 代 的 是 将 输入 文本 划分 成 句子 的 结果 
(参见 以 下 代码 ) 。 对 于 每 个 句子 ， 可 以 获取 一 个 Tree 对 象 的 实例 ， 该 实例 代表 的 是 一 个 包 仿 对 于 情感 文本 解析 的 树 结构 。 
getPredictedClass 方 法 将 索引 返回 到 sentimentText 数 组 中 用 来 指定 测试 的 情感 : 


for (CoreMap sentence : annotation.get ( 
CoreAnnotations.SentencesAnnotation.class)) { 
Tree tree - sentence.get( 
SentimentCoreAnnotations.AnnotatedTree.class); 
int score - RNNCoreAnnotations.getPredictedClass (tree); 
System.out.println(sentimentText [score] ) ; 


| 


当 使 用 review 字 符 串 执行 代码 后 ， 可 以 得 到 以 下 结 


Positive 


sam 字 符 串 文本 包含 三 个 句子 ， 每 个 句子 对 应 的 结果 如 下 : 


Neutral 
Negative 


Neutral 


mary 字 符 串 文本 包含 两 个 句子 ， 每 个 句子 对 应 结果 如 下 : 


Positive 


Neutral 


6.4.3 ”使 用 LingPipe 进 行文 本 分 类 


本 书 中 ， 我 们 使 用 LingPipe 来 演示 一 系列 分 类 任务 ， 包 括 一 般 的 文本 分 类 、 情 感 分 析 以 及 语言 识别 。 以 下 是 将 要 涉及 的 分 类 主 


使 用 Classified 类 训练 文本 


- 使 用 其 他 训练 类 别 训练 模型 


- 如 何 使 用 LingPipe 分 类 文本 
: 使 用 LingPipe 进 行情 感 分 析 
C 识别 所 使 用 的 语言 


本 节 中 描述 的 几 个 任务 会 用 到 如 下 声明 。LingPipe 需 要 用 到 不 同类 别 的 训练 数据 ，categories 数 组 包含 由 LingPipe 打 包 的 类 别 
ARR: 


String[] categories = {"soc.religion.christian", 


"talk.religion.misc","alt.atheism","misc.forsale"}; 


DynamicLMClassifier 类 用 来 完成 实际 的 分 类 任务 ， 它 是 通过 包含 类 别名 称 的 categories 数 组 创建 的 。nGramsize 值 指定 的 是 
RRA PSB ASN : 
int nGramSize = 6; 
DynamicLMClassifier«NGramProcessLM» classifier = 
DynamicLMClassifier.createNGramProcess( 
categories, nGramSize); 


6.4.3.1 (FATS II SCAN 


使 用 LingPipe 进 行 一 般 的 文本 分 类 ， 首 先 通 过 训练 集 文件 训练 DynamicLMClassifier 类 ， 然 后 通过 该 类 完成 实际 的 分 类 任务 。 
LingPipe 在 其 目录 (demos/data/fourNews-Groups/4news-train) 下 提供 了 一 些 训练 集 。 我 们 通过 这 些 训练 集 来 演示 训练 过 


程 。 以 下 示例 是 一 个 训练 过 程 的 简化 版 ， 完 整 版 可 从 以 下 地 址 获取 : http://alias-i.com/lingpipe/demos/tutorial/classify/read- 
me.html, 


首先 声明 训练 目录 : 


String directory = ".../demos"; 
File trainingDirectory = new File(directory 


+ "/data/fourNewsGroups/4news-train"); 
训练 目录 中 有 4 个 子 目 录 ， 它 们 的 名 称 罗 列 在 categories 数 组 中 。 每 个 子 目 录 包 含 一连 串 由 数字 命名 的 文件 。 这 些 文 件 含有 用 
来 处 理 目 录 和 名 称 的 “新 闻 组 ” (newsgroup) 数据 (http://qwone.com/~jason/20Newsgroups/) 。 


训练 模型 的 过 程 要 用 到 每 个 文件 和 类 别 以 及 DynamicLM Classifier 类 的 handle 广 法。 该 方法 利用 文件 为 每 个 类 别 创建 一 个 训练 
实例 ， 然 后 通过 实例 扩充 模型 。 这 个 过 程 会 涉及 for 椭 套 循 环 。 


外 层 的 for 循 环 使 用 目录 名 称 创建 一 个 File 对 象 ， 然 后 再 调用 它 的 list 方 法 返回 目录 中 的 文件 列表 。 每 个 文件 的 名 称 存放 在 内 层 
for 循 环 的 trainingFiles 数 组 中 : 


for (int i = 0; i < categories.length; ++i) | 


File classDir = 
new File(trainingDirectory, categories [i] ) ; 


String[] trainingFiles = classDir.list(); 


// Inner for-loop 


如 下 所 示 的 内 层 for 循 环 打开 每 个 文件 ， 并 读 取 其 中 的 文本 。Classification 类 将 分 类 表示 成 特定 的 类 别 ， 它 是 和 文本 一 起 使 用 
来 创建 Classified 实 例 。DynamicLMCKClassifier 类 的 handle 方 法 根据 新 的 信息 更 新 模型 : 


(int j = 0; j < trainingFiles.length; ++j) { 


COL 


try 4 
File file = new File(classDir, trainingFiles[jl); 


String text = Files.readFromFile(file, "ISO-8859-1"); 


Classification classification - 
new Classification(categories[il); 
Classified«CharSequence» classified - 
new Classified<>(text, classification); 
classifier.handle(classified); 
| catch (IOException ex) | 


// Handle exceptions 


读者 可 使 用 java.io.File 中 的 com.aliasi.util.Files 类 ， 否 则 无 法 使 用 readFromFile 方 法 。 


如 下 所 示 ， 我 们 可 将 分 类 器 序列 化 以 便 后 续 使 用 。AbstractExternalizable 类 是 一 个 支持 对 象 序列 化 的 工具 类 。 它 有 一 个 静态 


compileTo 万 法 ， 该 万 法 可 接受 一 个 Compilable 实 例 和 一 个 File 对 象 。 如 下 所 示 ， 它 可 以 将 对 象 序列 化 成 文件 : 


try { 
AbstractExternalizable.compileTo( (Compilable) 


new File("classifier.model")); 
} catch (IOException ex) { 
// Handle exceptions 


classifier, 


分 类 器 的 加 载 将 会 在 本 章 6.4.3.3 忆 中 说 明 。 


6.4.3.2 ”使 用 其 他 的 训练 类 别 


在 http://qwone.com/~jason/20Newsgroups/ 中 可 以 找到 其 他 的 “新 闻 组 ”数据 。 这 些 数 据 可 以 用 来 训练 以 下 表格 中 的 分 


类 器 。 尽 管 只 有 20 个 类 别 ， 但 它们 都 是 非常 有 用 的 训练 模型 。 三 组 可 下 载 的 数据 中 ， 其 中 一 些 是 已 经 排序 过 的 ， 其 他 组 中 去 掉 了 重 


复 的 数据 : 


新 闻 组 


comp.graphics sci.crypt 
comp.os.ms-windows.misc sci.electronics 
comp.sys.ibm.pc.hardware sci.med 
comp.sys.mac.hardware Sci.space 
comp.windows.x misc.forsale 
rec.autos talk.politics.misc 
rec.motorcycles talk.politics.guns 
rec.sport.baseball talk.politics.mideast 
rec.sport.hockey talk.religion.misc 


alt.atheism 


6.4.3.3 ”LingPipe 的 文本 分 类 


为 了 分 类 文本 ， 我 们 将 用 到 DynamicLM Classifier 类 的 classify 方 法 。 下 面 我 们 会 通过 两 段 文 本 来 演示 其 用 法 : 
: fotSale: 第 一 段 文本 来 自 http://www.homes.com/for-sale/ 的 第 一 个 完整 句 。 
martinLuther: 第 二 段 文 本 来 自 https://en.wikipedia.org/wiki/Mattin_Luther 的 第 二 段 中 的 第 一 句 。 


文本 声明 如 下 : 


String forSale = 
"Finding a home for sale has never been " 


"easier. With Homes.com, you can search new " 
"homes, foreclosures, multi-family homes, " 

"as well as condos and townhouses for sale. " 
"You can even search our real estate agent " 


+ + + + + 


"directory to work with a professional " 

+ "Realtor and find your perfect home."; 
String martinLuther = 

"Luther taught that salvation and subsequently " 
"eternity in heaven is not earned by good deeds " 
"but is received only as a free gift of God's " 
"grace through faith in Jesus Christ as redeemer " 


+ + + + 


"from sin and subsequently eternity in Hell."; 


为 使 用 前 面 小 节 中 序列 化 后 的 分 类 器 ， 这 里 使 用 AbstractExternalizable 类 的 readObject 方 法 ， 并 且 使 用 LMClassifier 类 而 不 
是 DynamicLMClassifier 类 。 它 们 都 支持 classify 方 法 ， 区 别 在 于 DynamicLMClassifier 类 不 可 以 被 序列 化 : 


LMClassifier classifier = null; 
try { 
classifier - (LMClassifier) 
AbstractExternalizable.readObject ( 
new File("classifier.model") ) ; 
) catch (IOException | ClassNotFoundException ex) { 
// Handle exceptions 


在 下 面 的 代码 段 中 ， 我 们 应 用 LM Classifier 类 的 classify 广 法， 返回 的 是 一 个 可 用 于 判断 最 优 匹配 的 JointClassification 实 例 : 


JointClassification classification = 
classifier.classify(text); 

System.out.println("Text: " 4 text); 

String bestCategory - classification.bestCategory(); 

System.out.println("Best Category: " + bestCategory); 


对 于 下 面 的 forSale 文 本 ， 人 得 到 如 下 结 


Text: Finding a home for sale has never been easier. With Homes.com, 

you can search new homes, foreclosures, multi-family homes, as well as 
condos and townhouses for sale. You can even search our real estate agent 
directory to work with a professional Realtor and find your perfect home. 


Best Category: misc.forsale 


对 于 martinLuther 文 本 ， 得 到 如 下 结 


Text: Luther taught that salvation and subsequently eternity in heaven 

is not earned by good deeds but is received only as a free gift of God's 
grace through faith in Jesus Christ as redeemer from sin and subsequently 
eternity in Hell. 


Best Category: soc.religion.christian 


这 些 文本 都 被 正确 地 分 类 了 。 
6.4.3.4 ”使 用 LingPipe 进 行情 感 分 析 


情感 分 析 的 处 理 过 程 和 一 般 的 文本 分 类 过 程 非常 相似 。 有 一 处 不 同 的 是 ， 情 感 分 析 使 用 的 是 两 种 类 别 : “正面 ”和 “人 负面”。 


我 们 需要 使 用 数据 文件 训练 模型 。 我 们 将 使 用 由 http://alias-i.com/lingpipe/demos/tutorial/sentiment/read-me.htm| 提 供 
的 情感 分 析 的 简化 版 本 ， 其 使 用 的 情感 数据 是 为 电影 建立 的 (http://www.cs.cornell.edu/people/pabo/movie-review- 
data/review polarity.tar.gz) 。 这 个 数据 是 来 自 互联 网 电影 数据 库 (IMDb) 中 的 1000 条 正面 和 1000 条 负面 的 影评 。 


这 些 影评 需要 下 载 和 解压 。 解 压 后 ， 会 出 现 一 个 txt_ sentoken 目 录 ， 其 包含 两 个 子 目 录 ， 分 别 是 : neg 和 pos。 这 两 个 子 目录 
中 都 包含 影评 数据 。 尽 管 这 些 影评 数据 的 一 部 分 就 能 评测 创建 的 模型 ， 但 为 了 简化 解释 说 明 ， 我 们 将 使 用 全 部 的 数据 用 于 评测 。 


首先 ， 重 新 初始 化 在 6.4.3 节 中 声明 的 变量 。 将 categories 声 明 为 包含 两 个 元 素 的 数组 用 于 存储 两 个 类 别 。 赋 予 classifier 变 量 一 
个 新 的 DynamicLMClassifier 实 例 ， 参 数 分 别 为 新 的 类 别 数 组 变量 和 值 为 8 的 NGramSize 变 量 。 


categories = new String[21]; 

categories[0] = "neg"; 

categories[1] = "pos"; 

nGramSize - 8; 

classifier - DynamicLMClassifier.createNGramProcess( 


categories, nGramSize); 


与 之 前 的 做 法 相同 ， 我 们 基于 训练 文件 中 的 内 容 创 建 一 系列 实例 。 我 们 不 详细 解释 下 面 的 代码 ， 因 为 它 和 6.4.3.1 节 中 的 代码 非 
常 类 似 ， 主 要 区 别 在 于 ， 这 里 只 有 两 种 类 别 需要 处 理 : 
String directory = *..."; 
File trainingDirectory = new File(directory, "txt sentoken"); 
for (int i = 0; i « categories.length; ++i) { 
Classification classification - 
new Classification(categories[il); 
File file - new File(trainingDirectory, categories[il); 
File[] trainingFiles - file.listFiles(); 
for (int j = 0; j < trainingFiles.length; ++j) { 
try { 


String review = Files.readFromFile ( 
trainingFiles[j], "ISO-8859-1"); 
Classified«CharSequence» classified - 
new Classified«»(review, classification); 
classifier.handle(classified) ; 
} catch (IOException ex) { 
ex.printStackTrace () ; 


| 


此 时 模型 已 经 可 以 使 用 了 ， 首 先 使 用 的 影评 来自 《 阿 甘 正 传 》: 


String review = "An overly sentimental film with a somewhat " 
+ "problematic message, but its sweetness and charm " 
+ "are occasionally enough to approximate true depth " 


+ "and grace. "; 


我 们 使 用 classify 方 法 进行 实际 的 分 类 工作 。 它 返回 的 是 Classification 实 例 ， 其 bestCategory 方 法 返回 的 是 最 优 类 别 ， 如 下 所 


El 


Classification classification - classifier.classify(review); 
String bestCategory - classification.bestCategory(); 
System.out.println("Best Category: " + bestCategory); 


代码 执行 后 ， 得 到 如 下 结果 : 


Best Category: pos 


该 方法 同样 适用 于 其 他 类 别 的 文本 。 
6.4.3.5 ”使 用 LingPipe 进 行 语 言 识别 


LingPipe 在 其 目录 demos/models 下 有 一 个 模型 langid-leipzig.classifier， 它 是 通过 多 种 语言 训练 得 到 的 。 下 面 表 格 中 列 出 的 
是 它 支 持 的 语言 。 该 模型 使 用 的 训练 数据 来 自 Leipzigi 语 料 库 (http://corpora.uni-leipzig.de/) 。 另 外 一 个 实用 的 工具 可 
Lhttps://code.google.com/p/language-detection/ 找 到 |。 


zs as 
Catalan i 
Danish i 
English i 
Finish sorb 
French sc 
Geman] de : 


为 了 使 用 该 模型 ,我 们 调用 6.4.3.3 蔬 中 的 相同 代码 。 首 先 使 用 来 自 《 阿 甘 正 传 》 的 相同 影评 : 


String text = "An overly sentimental film with a somewhat " 
+ "problematic message, but its sweetness and charm " 
+ "are occasionally enough to approximate true depth " 
+ "and grace. "; 

System.out.println("Text: " + text); 


随后 使 用 langid-leipzig.classifier 文 件 创建 一 个 LMClassifier 实 例 |: 


LMClassifier classifier = null; 
try { 
classifier - (LMClassifier) 
AbstractExternalizable.readObject( 
new File(".../langid-leipzig.classifier")); 
) catch (IOException | ClassNotFoundException ex) { 
// Handle exceptions 


使 用 classifier 方 法 后 调用 bestCategory 方 法 获取 最 佳 匹配 的 语言 类 别 ， 如 下 所 示 : 


Classification classification = classifier.classify(text); 
String bestCategory - classification.bestCategory(); 
System.out.println("Best Language: " + bestCategory); 


ARVE “英语 ”的 文本 ， 结 果 如 下 : 


Text: An overly sentimental film with a somewhat problematic message, but 
its sweetness and charm are occasionally enough to approximate true depth 
and grace. 


Best Language: en 


下 面 的 代码 示例 使 用 的 是 瑞典 维基 百科 (http://sv.wikipedia.org/wiki/Svenska) 中 的 第 一 个 句子 : 


text = "Svenska ar ett Ostnordiskt sprak som talas av cirka " 
+ "tio miljoner personer[1], framst i Finland " 
+ "och Sverige."; 


如 下 的 结果 正确 地 识别 出 了 其 语言 类 别 |: 
Text: Svenska ár ett óstnordiskt sprak som talas av cirka tio miljoner 
personer[1], frámst i Finland och Sverige. 


Best Language: se 


其 训练 过 程 和 之 前 介绍 的 训练 LingPipe 模 型 的 过 程 是 一 样 的 。 进 行 语言 识别 时 ， 需 要 注意 若 文 本 包含 多 种 语言 ， 识 别 过 程 会 变 


65 ”本 章 小 结 


在 本 章 中 ， 我 们 讨论 了 文本 分 类 涉及 的 问题 ， 同 时 也 使 用 了 不 同 的 方法 实现 了 该 过 程 。 文 本 分 类 对 很 多 应 用 都 是 非常 有 用 的 ， 
比如 : 检测 垃圾 邮件 ， 鉴 别 一 篇 文档 的 可 能 作者 ， 识 别 性 别 以 及 识别 语言 。 


同时 我 们 也 展示 了 执行 情感 分 析 的 过 程 。 情 感 分 析 主 要 关注 的 是 一 段 文 本 中 的 情感 是 正面 的 还 是 负面 的 。 除 此 之 外 ， 也 可 扩展 
到 其 他 的 情感 属性 上 。 


我 们 使 用 的 大 多 数 万 法 首先 需要 基于 训练 数据 创建 一 个 模型 。 通 弟 情 况 下 ， 访 模型 需要 通过 一 组 测试 数据 进行 验证 。 一 旦 模型 
Bs, CHS AWE RE. 


在 下 一 章 中 ， 我 们 将 会 考察 文本 解析 过 程 以 及 它 在 天 系 提取 中 的 作用 |。 


第 / 草 ”关系 提取 


通过 对 文本 单元 的 解析 可 以 建立 解析 树 ， 解 析 机 器 语言 十 分 简单 (毕竟 就 是 机 器 的 语言 ) ， 然 而 写 代 码 是 很 困难 的 ， 更 不 必 说 
目 然 语 言 的 解析 了 。 目 然 语 言 具有 歧义 性 ， 收 义 性 使 语言 难以 学 习 ， 但 具有 极 大 的 灵活 性 和 表达 力 。 在 这 里 ， 我 们 对 解析 机 器 语言 
不 感 兴趣 ， 感 兴趣 的 是 目 然 语言 的 解析 。 


解析 树 是 表示 句子 语法 结构 的 层次 化 数据 结构 。 通 党 ， 这 是 一 个 市 有 根 节 扣 的 树 图 ， 后 续 内 容 将 对 其 说 明 ， 我 们 将 使 用 解析 树 
帮助 识别 其 中 实体 之 间 的 关系 。 


解析 可 用 于 多 种 任务 ， 包 括 : 
+ PLS GH 
语 首 合成 
语音 识别 
. 语法 检查 
信息 提取 


共 措 消解 (coreference resolution) 是 措 在 文本 中 的 两 个 或 两 个 以 上 表达 式 指 向 同一 个 人 或 物 的 情况 。 例 如 ， 在 以 下 这 人 句 话 
rh: 


"Ted went to the party where he made an utter fool of himself." 


"Ted" “he” 和 “himself” 都 指 的 是 “Ted”， 这 对 于 正确 解读 文本 和 确定 文本 的 相关 重要 性 程度 是 非常 重要 的 。 下 文 将 议 
明 如 何 使 用 Stanford 的 API 解 决 这 个 问题 。 


从 文本 中 提取 天 系 和 有 用 的 信息 是 NLP 中 一 项 重要 的 任务 。 实 体 乙 间 (比如 一 个 句子 的 主语 和 它 的 宾语 、 其 他 实体 或 它 的 行为 
之 间 ) 可 能 存在 各 种 天 系 。 我 们 可 以 直接 使 用 所 得 结果 或 者 进行 格式 化 以 便 更 好 地 利用 它们 来 完成 下 游 任务 。 


这 一 章 介绍 解析 文本 的 过 程 及 解析 树 的 使 用 ， 包 括 天 系 提取 、 天 系 类 型 研究 、 天 系 提取 应 用 和 NLP 的 API 的 使 用 。 


7.1 KARE 


事物 之 间 的 关系 有 多 种 ， 下 表 中 列 出 了 一 些 类 别 及 其 例子 。 更 多 详细 的 内 容 可 参考 Freebase 网 站 
(https://www.freebase.com/) ， 这 一 数据 库 中 按照 人 物 、 地 点 和 事物 等 分 门 别 类 。 另 外 还 可 以 参考 一 人 WordNet 辞 典 
(http://wordnet.princeton.edu/) 。 


大 系 例 T 

个 人 的 father-of, sister-of, girlfriend-of 

组 织 的 subsidiary-of, subcommittee—of 

空间 的 near-to, northeast-of, under 

物质 的 part-of, composed-of 

相互 作用 bonds-with, associates-with, reacts-with 


命名 实体 识别 (NER) 是 第 4 章 介绍 过 的 较 低 水 平 的 NLP 分 类 任务 。 然 而 ， 许 多 应 用 不 仅 需 要 如 此 ， 还 希望 识别 不 同 的 关系 类 
型 。 当 NER 识 别 出 一 个 实体 后 ， 如 果 可 以 判断 这 是 一 个 人 ， 那 么 对 于 进一步 的 天 系 提取 十 分 有 利 。 


一 旦 确定 了 这 些 实 体 ， 束 可 以 将 链接 创建 到 它们 包含 的 文档 中 或 用 作 过 引 。 对 于 问答 应 用 ， 回 答 中 通常 用 到 命名 实体 。 当 确定 
了 文本 的 情感 特征 时 ， 这 一 情感 也 要 归 到 一 些 实体 上 。 


比如 以 下 输出 : 


He was the last person to see Fred. 


使 用 第 4 章 介 绍 的 OpenNLP NER 进 行 处 理 ， 结 果 如 下 : 
Span: [7..9) person 
Entity: Fred 


使 用 OpenNLP 解 析 器 ， 得 到 句子 的 更 多 信息 : 


(TOP (S (NP (PRP He)) (VP (VBD was) (NP (NP (DT the) (JJ last) (NN 
person)) (SBAR (S (VP (TO to) (VP (VB see))))))) (. Fred.))) 


再 看 下 面 这 句 话 : 
The cow jumped over the moon. 


解析 结果 如 下 : 


(TOP (S (NP (DT The) (NN cow)) (VP (VBD jumped) (PP (IN over) (NP (DT 
the) (NN moon)))))) 


解析 分 为 两 种 。 
RRA: 关注 于 单词 之 间 的 关系 
解析 结构 型 : 处 理 词组 及 其 递归 结构 


依赖 型 使 用 主语 、 限 定 词 、 介 词 等 提取 天 系 。 解 析 方 法 包括 shift-reduce、spanning tree 和 cascaded chunking。 这 里 不 讨 
论 它 们 之 间 的 差异 ， 而 是 要 研究 它们 的 使 用 方法 和 输出 结果 。 


7.2. 理解 解析 树 


解析 树 代表 文本 元 素 间 层次 化 的 天 系 。 依 赖 型 树 展示 了 句子 语法 元 素 之 间 的 天 系 。 看 下 面 这 人 句 话 : 


The cow jumped over the moon. 


这 句 话 的 解析 树 如 下 ， 这 是 由 7.5.2.1 节 中 使 用 的 方法 生成 的 : 


(ROOT 
(S 
(NP (DT The) (NN cow)) 


(VP (VBD jumped) 
(PP (IN over) 
(NP (DT the) (NN moon)))) 
(. .))) 


这 个 句子 可 以 摘 述 为 下 图 中 的 图 像 ， 这 是 由 http://nlpviz.bpodgursky.com/yhome 中 的 应 用 程序 生成 的 。 另 外 这 个 图 还 可 以 
使 用 斯 坦 福 大 学 支持 的 GrammarScope 编 辑 器 (http://grammarscope.sourceforge.net/) ， 它 使 用 基于 Swing 的 图 形 用 户 界 
面 ， 可 以 生成 解析 树 、 语 法 结构 、 依 赖 关系 和 文本 的 语义 图 。 


ROOT 


g 
a 
a a 
m) m mU G 
[e Q 
CC 


然而 ， 解 析 句 子 的 方法 不 止 一 种 ， 解 析 不 是 一 件 容易 的 事情 ， 尤 其 是 解析 可 能 存在 许多 层 义 的 一 大 段 文 本 。 下 面 询 出 了 用 其 他 


方法 对 于 之 前 的 示例 句子 进行 解析 得 到 的 依赖 型 树 。 使 用 OpenNLP 生 成 的 解析 树 ， 在 本 章 7.5.1 节 中 还 有 介绍 : 


(TOP (S (NP (DT The) (NN cow)) (VP (VBD jumped) (PP (IN over) (NP (DT 


the) (NN moon)))))) 
(TOP (S (NP (DT The) (NN cow)) (VP (VP (VBD jumped) (PRT (RP over))) (NP 


(DT the) (NN moon))))) 
(TOP (S (NP (DT The) (NNS cow)) (VP (VBD jumped) (PP (IN over) (NP (DT 


the) (NN moon)))))) 


对 同一 个 句子 的 解析 ， 以 上 所 得 结果 均 略 有 差异 ， 最 可 靠 的 是 第 一 个 。 


7.3 ”关系 提取 的 应 用 


提取 到 的 关系 可 以 用 于 以 下 几 种 目的 : 
E 建立 知识 库 
` 创建 目录 


` 产品 搜索 


下 图 所 示 是 一 个 维基 百科 的 信息 框 ， 当 进入 Oklahoma 词 条 时 ， 可 以 在 这 个 信息 框 中 看 到 列 出 的 各 种 关系 类 型 ， 如 官方 语言 、 
行政 中 心 及 该 区 域 的 具体 情况 。 


State of Oklahoma 
ds WEdS- (Ogalahoma) 


Motto(sy Labor omnia vincit (Latin) 


Official 
language 


Spoken 
languages 


Denon yi 
Capital 
(and largest 
city) 


Largest metro 


English 
Cherokee (within Cherokee 
Nation and UKB) [H2N3] 


English 
Spanish 
Cherokee lH 


Oklahoman: Okie (collaq.) 


Oklahoma City 


Oklahoma City-Shawnee 


Ranked 20th 

pd 698 Sq mi 
(181,195 km) 

230 miles (3/0 km) 


298 miles (480 km) 


有 许多 用 于 关系 、 信 息 提取 的 数据 库 是 根据 维基 百科 建立 的 ， 如 下 例 所 示 。 


: Resource Description Framework (RDF) : 采用 三 元 组 ， 如 Yosemite-location-California， 其 中 ，location 表 示 其 关联 ， 其 网 站 


Ahttp://www.w3.org/RDF/ o 


: DBPedia: 存储 有 十 亿 以 上 的 三 元 组 ， 是 一 个 根据 维基 百科 建立 的 知识 库 ， 其 网 站 为 http://dbpedia.org/About。 


男 一 个 简单 有 趣 的 例子 如 下 图 所 示 ， 当 用 合 歌 搜索 “水 星 ” (planet mercury) 时 ,我 们 不 仅 获 得 了 一 些 便 询 结 果 的 链接 ， 


还 看 到 了 页 面 石 侧 显示 的 水 星 的 天 系 信 息 和 图 片 : 


Google | planet mercury mE | | | | 


Web Images Videos News Books Morev Search tools 


About 28,600,000 results (0.35 seconds) 


Solar System Exploration: Planets: Mercury: Overview 
solarsystem.nasa.gov/planets/profile.cfm?Object-Mercury * NASA ~ 

Sep 10, 2014 - Sun-scorched Mercury is only slightly larger than Earth's moon. Like the 
moon, Mercury has very little atmosphere to stop impacts and it is ... 

Venus - Facts & Figures - Read More - Gallery 


Mercury (planet) - Wikipedia, the free encyclopedia > | 

en.wikipedia.org/wik/Mercury (planet) ~ Wikipedia ~ tie, LA 
Mercury is the smallest and closest to the Sun of the eight planets in the Solar Mos Moré images 

System, with an orbital period of about 88 Earth days. Seen from Earth, it appears ... 


Messenger - Colonization of Mercury - Mariner 10 - Exploration of Mercury 


^ 
7 
+ 


Mercury 


Mercury Facts - Interesting Facts about the Planet Mercury Planet 


space-facts.com/mercury/ ~ 
Mercury is the closest planet to the Sun and due to its proximity it is not easily seen Mercury is the smallest and closest to the Sun of the eight planets in the 
except during twilight. For every two orbits of the Sun, Mercury completes ... Solar System, with an orbital period of about 88 Earth days. Wikipedia 


Radius: 1,516 miles (2,440 km) 
Planet Mercury: Facts About the Planet Closest to the Sun Surface area: 28.88 million sq miles (74.8 million km?) 
www.space.com/36-mercury-the-suns-closest-planetary-neigh... ~ Space.com ~ . 
Nov 4, 2014 - Mercury is the closest planet to the sun. As such, it circles the sun Mass: 328.521 kg (0.055 Earth — 
faster than all the other planets, which is why Romans named it after the ... Distance from Sun: 35,980,000 miles (57,910,000 km) 
Orbital period: 88 days 


The Planet Mercury Length of day: 58d 15h 30m 
csep10.phys.utk edu/.../mercury/mercury.htm! * University of Tennessee ~ 
The planet Mercury is very difficult to study from the Earth because it is always so 


close to the Sun. Even at elongation, it is never more than 28 degrees from the ... People also search for Ve tr deers 


Mercury - Astronomy For Kids - KidsAstronomy.com 
www.kidsastronomy.com/mercury.htm ~ 
The planet Mercury is the closest of the planets to the Sun. Because this planet lies 
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EUSABEBXTOFHT GI Webzi9|, KEARNS [73 8 FB Aio edu, FARA ESHA OEA Por th 
(http://www.census.gov/main/www/a2z) 的 Web 索 引 的 例子 : 
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American 


American Community Survey (ACS) Home page 

American Housing Survey (AHS) 

American Indians and Alaska Natives (AIAN) - see Race 

American National Standards Institute (ANSI) Codes (formerly FIPS) 


American Samoa - see Puerto Rico and the U.S. Island Areas 


Ancestry 


Annual 
Annual Capital Expenditures Survey (ACES) 


Annual Retail Trade Survey 

Annual Service Survey 

Annual Survey of Manufactures (ASM) 
Monthly & Annual Wholesale Trade Survey 


ANSI (American National Standards Institute) Codes (formerly FIPS) 
Application Program Interface (API) 


74 天 系 提取 


天 系 提取 有 许多 可 行 的 方法 ， 可 以 分 类 如 下 : 


. 手工 模式 

监督 方法 

“ 半 监 督 或 无 监督 方法 
自 提升 法 

远程 监督 法 

“无 监督 法 


当 我 们 没有 训练 数据 时 ， 比 如 一 个 新 的 业务 领域 或 完全 新 类 型 的 项 目 ， 此 时 应 访 用 手工 模型 。 这 种 模型 通常 需要 一 定 的 规则 ， 
比如 : 含有 “演员 ”而 不 从 有 “电影 ”广告 ”的 文本 该 属于 “剧本 ”。 


然而 ， 这 种 方法 耗 时 耗 力 ， 需 要 随 实际 文本 而 调整 。 


如 果 有 一 些 不 错 的 训练 数据 ， 可 以 尝试 使 用 朴素 贝 叶 斯 万 法 ;如 果 有 更 多 的 数据 ，SVM、 正 则 化 的 逻辑 回归 和 随机 森林 等 万 
法 都 可 以 使 用 。 


虽然 也 有 必要 了 解 这 些 万 法 的 原理 ， 但 是 此 处 重点 说 明 它 们 的 使 用 方法 。 


7.5 使 用 NLP API 


我 们 将 使 用 OpenNLP 和 Stanford 的 API 演 示 文 本 解析 和 关系 提取 的 方法 。LingPipe 可 用 于 解析 生物 医药 专业 文献 ， 本 书 不 做 
介绍 ， 详 情 可 参考 http://alias-i.com/lingpipe-3.9.3/demos/tutorial/medline/read-me.html。 


7.5.1 OpenNLP 的 使 用 


ParserTool| 类 可 以 简单 实现 文本 解析 。 静 态 的 parseLine 方 法 接受 三 个 参数 ， 返 回 一 个 Parser 实 例 。 这 三 个 参数 是 : 
. 待 解析 的 字符 串 

Parser 实 例 

: 指定 返回 的 解析 内 容 数 量 的 一 个 整数 


Parser 实 例 存 储 所 有 解析 的 元 素 ， 按 其 可 能 性 的 大 小 顺序 返回 。 创 建 一 个 Parser 实 例 需 使 用 ParserFactory 类 的 create 方 法 ， 
设 万 法 使 用 借助 en-parser-chunking.bin 文 件 创建 的 ParserModel 实 例 。 


代码 如 下 所 示 ， 用 try-with-resources 语 句 块 创建 模型 文件 的 输入 流 ， 创 建 ParserModel 实 例 以 及 一 个 Parser 实 例 : 


String fileLocation = getModelDir() + 
"/en-parser-chunking.bin"; 
try (InputStream modellInputStream = 


new FileInputStream(fileLocation);) { 
ParserModel model = new ParserModel (modellInputStream); 
Parser parser - ParserFactory.create (model); 


) catch (IOException ex) { 
// Handle exceptions 


解析 过 程 的 代码 十 分 简单 ， 如 下 所 示 ， 调 用 parseLine 方 法 ， 第 三 个 参数 是 3， 表 示 将 返回 前 三 个 解析 内 容 : 


String sentence = "The cow jumped over the moon"; 
Parse parses[] = ParserTool.parseLine(sentence, parser, 3); 


接 下 来 ， 列 出 解析 内 容 及 其 可 能 性 大 小 ， 如 下 所 示 : 


for(Parse parse : parses) | 


parse.show(); 
System.out.println("Probability: " + parse.getProb()); 


所 得 结果 如 下 : 


(TOP (S (NP (DT The) (NN cow)) (VP (VBD jumped) (PP (IN over) (NP (DT 
the) (NN moon)))))) 

Probability: -1.043506016751117 

(TOP (S (NP (DT The) (NN cow)) (VP (VP (VBD jumped) (PRT (RP over))) (NP 
(DT the) (NN moon))))) 

Probability: -4.248553665013661 


(TOP (S (NP (DT The) (NNS cow)) (VP (VBD jumped) (PP (IN over) (NP (DT 
the) (NN moon)))))) 


Probability: -4.761071294573854 


每 个 解析 的 顺序 和 标注 均 有 所 不 同 。 我 们 将 第 一 个 解析 格式 化 以 便 更 易于 理解 ， 如 下 : 


(TOP 


(S 
(NP 
(DT The) 
(NN cow) 
) 
(VP 
(VBD jumped) 
(PP 
(IN over) 
(NP 
(DT the) 
(NN moon) 
) 
) 
) 
) 


) 


showCodeTree 方 法 可 以 用 于 显示 父子 元 素 的 关系 : 


parse.showCodeTree(); 


第 一 个 解析 的 输出 如 下 ， 每 行 第 一 部 分 是 括号 内 元 素 的 级 别 ， 随 后 是 由 -> 隅 开 的 两 个 哈 硕 值 ， 最 后 是 标注 。 哈 布什 分别 对 应 
该 元 素 及 其 父 元 素 。 比 如 第 三 行为 专 有 名 词 “The”， 其 父 元 素 为 名 词 短语 “The cow” : 


[0] S -929208263 -> -929208263 TOP The cow jumped over the moon 
[0.0] NP -929237012 -> -929208263 S The cow 

[0.0.0] DT -929242488 -> -929237012 NP The 

[0.0.0.0] TK -929242488 -> -929242488 DT The 

[0.0.1] NN -929034400 -> -929237012 NP cow 

[0.0.1.0] TK -929034400 -> -929034400 NN cow 

[0.1] VP -928803039 -> -929208263 S jumped over the moon 
[0.1.0] VBD -928822205 -» -928803039 VP jumped 

[0.1.0.0] TK -928822205 -> -928822205 VBD jumped 

[0.1.1] PP -928448468 -> -928803039 VP over the moon 
[0.1.1.0] IN -928460789 -> -928448468 PP over 
[0.1.1.0.0] TK -928460789 -> -928460789 IN over 
[0.1.1.1] NP -928195203 -> -928448468 PP the moon 
[0.1.1.1.0] DT -928202048 -> -928195203 NP the 
[0.1.1.1.0.0] TK -928202048 -> -928202048 DT the 
[0.1.1.1.1] NN -927992591 -> -928195203 NP moon 
[0.1.1.1.1.0] TK -927992591 -> -927992591 NN moon 


通过 getChildren 方 法 也 可 得 到 解析 结果 的 元 素 ， 该 方法 返回 一 个 Parser 对 象 数组 ， 每 个 对 象 是 解析 结果 的 一 个 元 素 。 使 用 
Parse 方 法 可 以 得 到 每 个 元 素 的 文本 、 标 注 和 标签 ， 如 下 所 示 : 


Parse children[] = parse.getChildren(); 

for (Parse parseElement : children) { 
System.out.println(parseElement.getText()); 
System.out.println(parseElement.getType()) 


"= a 


Parse tags[] = parseElement.getTagNodes(); 

System.out.println("Tags"); 

for (Parse tag : tags) { 
System.out.println("[" + tag + "]" 


+ " type: " + tag.getType() 
+ " Probability: " + tag.getProb() 
+ " Label: " + tag.getLabel()); 


所 得 结果 如 下 : 


The cow jumped over the moon 


S 

Tags 

[The] type: DT Probability: 0.9380626549164167 Label: null 
[cow] type: NN Probability: 0.9574993337971017 Label: null 
[jumped] type: VBD Probability: 0.9652983971550483 Label: S-VP 
[over] type: IN Probability: 0.7990638213315913 Label: S-PP 
[the] type: DT Probability: 0.9848023215770413 Label: null 
[moon] type: NN Probability: 0.9942338356992393 Label: null 


7.5.2 使 用 Stanford API 


Stanford NLP 的 API 有 多 个 文本 解析 的 方法 。 首 先 我 们 演示 一 个 一 般 目 的 的 解析 器 (LexicalizedParser 类 ) 。 然 后 ， 介 绍 如 何 
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使 用 TreePrint 类 列 出 解析 的 结果 。 最 后 ， 演 示 用 GrammaticalSstructure 类 决定 单词 间 的 依赖 天 系 。 


7.5.2.1 LexicalizedParser 类 的 使 用 


LexicalizedParser 类 是 一 个 词汇 化 的 PCFG 解 析 器 ， 可 以 使 用 多 种 不 同 的 模型 。 使 用 apply 方 法 可 以 建立 一 棵 解析 树 ， 其 参数 
是 一 个 CoreLabel 对 象 的 List 实 例 。 


首先 ， 使 用 englishPCFG.ser.gz 的 模型 初始 化 解析 器 : 


String parserModel = ".../models/lexparser/englishPCFG.ser.gz"; 
LexicalizedParser lexicalizedParser - 


LexicalizedParser.loadModel (parserModel); 


用 Sentence 类 的 toCoreLabelList 方 法 创建 CoreLabel 对 象 的 List 实 例 。 其 中 CoreLabel 对 象 包括 一 个 单词 及 其 他 信息 ， 并 没有 
标注 或 标签 ， 实 际 上 其 中 的 单词 已 被 分 词 处 理 了 。 


String[] senetenceArray = {"The", "cow", "jumped", 
"the", "moon", NELLE 
List«CoreLabel» words - 


" Over n ‘ 


Sentence.toCoreLabelList (senetenceArray) ; 


此 时 调用 apply 方 法 : 


Tree parseTree = lexicalizedParser.apply (words); 


使 用 pennpPrint 方 法 可 以 很 方便 地 列 出 解析 结果 ， 与 Penn TreeBank 所 用 方法 相同 (http://www.sfs.uni- 
tuebingen.de/- dm/07/autumn/795.10/ptb-annotationguide/root.html) : 


parseTree.pennPrint () ; 


所 得 结果 如 下 ; 
(ROOT 
(S 
(NP (DT The) (NN cow)) 
(VP (VBD jumped) 
(PP (IN over) 
(NP (DT the) (NN moon)))) 
(. .))) 


Tree 类 提供 了 很 多 处 理解 析 树 的 方法 。 
7.5.2.2 TreepPrint 方 法 的 使 用 


TreepPrint 类 提供 很 简单 的 方法 列 出 解析 树 。 创 建 一 个 实例 ， 使 用 摘 述 所 需 格式 的 字符 串 为 参数 ， 使 用 静态 的 
outputTreeFormats 变 量 可 得 到 有 效 的 输出 格式 的 数字 ， 如 下 表 所 示 : 


Tree 格式 字符 串 


penn collocations 

oneline semanticGraph 
rootSymbolOnly conllStyleDependencies 
"UU | xm | 


斯 坦 福 大 学 使 用 类 型 依赖 性 来 摘 述 句子 内 部 仔 人 在 的 语法 天 系 ， 许 情 可 参考 Stanford Typed Dependencies 
Manual (http://nlp.stanford.edu/software/dependencies manual.pdf) 。 


下 列 代 码 演示 了 TreePrint 类 的 使 用 方式 ， 通 过 printTree 廊 法 执行 实际 的 输出 操作 。 


这 种 情况 下 创建 了 TreePrint 对 象 ， 带 有 类 型 依赖 性 “collapsed” , 


TreePrint treePrint = 


new TreePrint("typedDependenciesCollapsed"); 
treePrint.printTree (parseTree) ; 


答 出 结果 如 下 ， 其 中 的 数字 表示 它 在 句子 中 的 位 置 
det(cow-2, The-1) 
nsubj (jumped-3, cow-2) 
root (ROOT-0, jumped-3) 
det (moon-6, the-5) 


prep over (jumped-3, moon-6) 
(ASB “penn” 创建 对 象 可 得 到 以 下 结果 : 


(ROOT 
(S 
(NP (DT The) (NN cow)) 
(VP (VBD jumped) 
(PP (IN over) 
(NP (DT the) (NN moon)))) 
(. .))) 


字符 串 “dependencies” 和 后 成 了 依赖 关系 的 一 个 简单 列表 : 


dep (cow-2, The-1) 

dep (jumped-3,cow-2) 

dep (null1-0, jumped-3, root) 
dep (jumped-3,over-4) 

dep (moon-6, the-5) 

dep (over-4,moon-6) 


可 以 使 用 逗号 合并 格式 ， 下 面 的 代码 将 得 到 penn 类 型 和 typedDependenciesCollapsed 格 式 的 结 
"penn, typedDependenciesCollapsed" 


7.5.2.3 ”使 用 GrammaticalSstructure 类 建立 单词 依赖 关系 


文本 解析 可 以 使 用 前 一 节 中 创建 的 LexicalizedParser 对 象 ， 并 结合 Treebank-LanguagePack 接 口 。 树 图 资料 库 
(Treebank) 是 一 个 注释 了 语法 和 语义 信息 的 文本 语料库 ， 提 供 了 一 个 句子 结构 的 信息 ， 可 以 通过 人 工 或 半自动 方式 创建 。 最 大 
的 树 图 资料 库 是 Penn TreeBank (http://www.cis.upenn.edu/~treebank/) 。 


下 面 的 例子 襄 明 了 如 何 使 用 解析 器 格式 化 一 个 简单 的 字符 串 。 分 词 器 工厂 用 于 创建 一 个 分 词 器 ， 还 用 到 了 7.5.2.1 节 中 的 


CoreLabelz: 


String sentence = "The cow jumped over the moon."; 

TokenizerFactory<CoreLabel> tokenizerFactory = 
PTBTokenizer.factory (new CoreLabelTokenFactory(), ""); 

Tokenizer<CoreLabel> tokenizer = 
tokenizerFactory.getTokenizer (new StringReader (sentence) ) ; 

List«CoreLabel» wordList = tokenizer.tokenize(); 

parseTree = lexicalizedParser.apply (wordList); 


TreebankLanguagePack 接 口 措 定 了 使 用 Treebank 的 方法 。 在 下 面 的 代码 中 ， 创 建 了 一 系列 对 象 ， 最 终 创建 一 个 
TypedDependency 实 例 ， 访 实例 用 于 获取 有 关 句 子 元 素 的 依赖 天 系 信息 。 创 建 一 个 GrammaticalstructureFactory 对 象 的 实例 ， 
并 用 于 创建 一 个 GrammaticalStructure 类 实例 : 


TreebankLanguagePack tlp = 
lexicalizedParser.treebankLanguagePack; 
GrammaticalStructureFactory gsf - 
tlp.grammaticalStructureFactory(); 
GrammaticalStructure gs - 
gstf.newGrammaticalStructure (parseTree); 
List«TypedDependency» tdl - gs.typedDependenciesCCprocessed(); 


如 下 代码 可 以 询 出 结果 : 


System.out.printlin(tdl); 


结果 如 下 : 


[det (cow-2, The-1), nsubj(jumped-3, cow-2), root (ROOT-0, jumped-3), 
det (moon-6, the-5), prep over(jumped-3, moon-6)] 


可 以 通过 gov、reln 和 dep 方 法 提取 信息 ， 分 别 可 以 得 到 核心 司 、 天 系 和 依赖 的 元 素 ， 识 明 如 下 : 


for(TypedDependency dependency : tdl) { 
System.out.println("Governor Word: [" + dependency.gov () 
+ "] Relation: [" + dependency.reln() .getLongName () 
+ "] Dependent Word: [" + dependency.dep() + "]"); 


结果 如 下 : 


Governor Word: [cow/NN] Relation: [determiner] Dependent Word: [The/DT] 


Governor Word: [jumped/VBD] Relation: [nominal subject] Dependent Word: 
[cow/NN] 


Governor Word: [ROOT] Relation: [root] Dependent Word: [jumped/VBD] 
Governor Word: [moon/NN] Relation: [determiner] Dependent Word: [the/DT] 


Governor Word: [jumped/VBD] Relation: [prep collapsed] Dependent Word: 
[moon/NN] 


据 此 可 以 对 句子 内 的 元 素 间 关系 有 个 大 致 了 解 。 


7.5.3 判断 共 指 消解 的 实体 


共 指 消解 是 指 文 本 中 两 个 及 以 上 的 表达 式 指向 同一 个 人 或 实体 的 情况 。 看 下 面 的 例子 : 


“He took his cash and she took her change and together they bought their lunch.” 


这 人 句 话 中 有 多 个 共 指 天 系 ，“his” 指 的 是 “He”，”her” 指 的 是 “she”， WA “they” feb "He" $H "she" , 


语 境 照 应 词 (endophora) 是 一 个 在 其 之 前 或 之 后 的 表达 式 的 共 指 关系 ， 可 以 被 分 为 向 前 照应 词 (anaphor) 和 向 后 照应 词 
(cataphor) 。 下 面 这 个 句子 “Mary felt the earthquake.It shook the entire building.” 中 ，“It” 是 先行 词 
(antecedent) "the earthquake” 的 向 前 照应 词 。 而 在 这 个 句子 “As she sat there, Mary felt the 
earthquake.” 中 ，“she” 是 后 行 词 (postcedent) “Mary” 的 向 后 照应 词 。 


通过 斯 坦 福 大 学 的 API 内 StanfordCoreNLP 类 的 dcoref 注 释 可 以 解决 共 握 消解 ， 我 们 将 以 之 前 的 句子 为 例 进 行 说 明 。 


我 们 首先 建立 流水 线 ， 使 用 annotate 方 法 ， 如 下 所 示 : 


String sentence = "He took his cash and she took her change " 

+ "and together they bought their lunch."; 

Properties props - new Properties(); 
props.put ("annotators", 

"tokenize, ssplit, pos, lemma, ner, parse, dcoref") ; 
StanfordCoreNLP pipeline = new StanfordCoreNLP (props) ; 
Annotation annotation = new Annotation(sentence) ; 
pipeline.annotate (annotation); 


使 用 Annotation 类 的 get 方 法 ， 传 入 CorefChainAnnotation.class 作 为 参数 ， 可 以 得 到 CorefChain 对 象 的 一 个 Map 实 例 ， 其 
中 存储 了 句子 内 找到 的 共 指 关系 的 信息 : 


Map«Integer, CorefChain» corefChainMap = 
annotation.get (CorefChainAnnotation.class) ; 


CorefChain 对 象 的 集合 使 用 整数 厅 引 ， 如 下 所 示 对 这 些 对 象 进行 人 毅 历 ， 得 到 键 集 便 可 以 列 出 每 一 个 CorefChain 对 铺 了 : 


Set<Integer> set = corefChainMap.keySet(); 
Iterator«Integer» setIterator = set.iterator(); 
while(setIterator.hasNext()) { 
CorefChain corefChain - 
corefChainMap.get(setIterator.next()); 
System.out.println("CorefChain: " + corefChain); 


结果 如 下 所 示 : 


CorefChain: CHAIN1-["He" in sentence 1, "his" in sentence 1] 
CorefChain: CHAIN2-["his cash" in sentence 1] 

CorefChain: CHAIN4-["she" in sentence 1, "her" in sentence 1] 
CorefChain: CHAIN5-["her change" in sentence 1] 

CorefChain: CHAIN7-["they" in sentence 1, "their" in sentence 1] 


CorefChain: CHAIN8-["their lunch" in sentence 1] 


使 用 CorefChain 和 CorefMention 类 的 方法 可 以 得 到 更 多 评 细 的 信息 。 后 者 包含 了 句子 内 找到 的 具体 共 指 关 系 的 信息 。 


在 前 面 代 码 的 while 循 环 主体 中 加 入 下 列 代 码 ， 可 以 得 到 并 列 出 所 需 信 息 ， 该 类 的 startlindex 和 endlndex 两 个 成 员 变 量 指 的 是 
句子 中 单词 的 位 置 。 


System.out.print("Clusterld: " + corefChain.getChainID(í)); 
CorefMention mention = corefChain.getRepresentativeMention () ; 
System.out.println(" CorefMention: " + mention 

+ " Span: [" + mention.mentionSpan + "]"); 


List«CorefMention» mentionList = 
corefChain.getMentionsInTextualOrder () ; 
Iterator<CorefMention> mentionIterator = 
mentionList.iterator () ; 
while (mentionIterator.hasNext()) | 
CorefMention cfm = mentionIterator.next(); 
System.out.printlin("\tMention: " + cfm 
+ " Span: [" + mention.mentionSpan + "]"); 
System.out.print("\tMention Mention Type: " 


+ cfm.mentionType + " Gender: " + cfm.gender); 
System.out.println(" Start: " + cfm.startIndex 
+ " End: " + cf&m.endIndex) ; 


| 


System.out.println(); 


结果 如 下 所 示 ， 在 此 只 列 出 了 第 一 个 和 最 后 一 个 : 


CorefChain: CHAIN1-["He" in sentence 1, "his" in sentence 1] 
ClusterId: 1 CorefMention: "He" in sentence 1 Span: [He] 
Mention: "He" in sentence 1 Span: [He] 
Mention Type: PRONOMINAL Gender: MALE Start: 1 End: 2 
Mention: "his" in sentence 1 Span: [He] 


Mention Type: PRONOMINAL Gender: MALE Start: 3 End: 4 


CorefChain: CHAIN8-["their lunch" in sentence 1] 


ClusterId: 8 CorefMention: "their lunch" in sentence 1 Span: [their 
lunch] 


Mention: "their lunch" in sentence 1 Span: [their lunch] 


Mention Type: NOMINAL Gender: UNKNOWN Start: 14 End: 16 


7.6 问答 系统 的 关系 提取 


这 一 节 中 我 们 介绍 可 以 用 于 问答 机 制 的 天 系 提取 方法 。 需 要 回答 的 问题 可 能 是 这 样 : 
` 美国 的 第 14 任 总 统 是 谁 ? 

美国 现任 总 统 来 自 哪里 ? 

奥巴马 总 统 在 任 时 间 是 什么 时 候 ? 


回答 这 尝 类 型 的 问题 并 不 容易 。 我 们 将 演示 回答 某 泽 类 型 问题 的 一 种 万 法 ， 但 我 们 将 对 过 程 的 许多 方面 进行 沿 化 。 既 使 有 这 些 
限制 ， 我 们 会 友 现 对 问题 的 回答 效果 还 不 错 。 


这 一 过 程 包括 以 下 几 个 步 又 : 
1) 判断 单词 的 依赖 关系 

2) 识别 问题 的 类 型 

3) 提取 相关 成 分 

4) 搜索 答案 

5) 回答 问题 

我 们 将 演示 判断 问题 类 型 (who/what/when/where) 的 一 般 框架 。 然 后 ， 我 们 研究 回答 “who” 类 型 问题 的 一 些 话题 。 


为 了 简化 问题 ， 我 们 将 问题 限制 为 天 于 美国 总 统 的 问题 ， 这 样 可 以 使 用 一 个 简 早 的 相关 数据 库 来 查询 问题 的 答案 。 


7.6.1 判断 单词 依赖 天 系 


将 问题 仓储 为 一 个 简单 的 字符 串 : 


String question = 
"Who is the 32nd president of the United States?"; 


按 7.5.2.3 节 中 所 示 使 用 LexicalizedParser 类 ， 为 了 方便 复制 代码 如 下 : 


String parserModel = ".../englishPCFG.ser.gz"; 
LexicalizedParser lexicalizedParser - 
LexicalizedParser.loadModel (parserModel); 


TokenizerFactory«CoreLabel» tokenizerFactory - 
PTBTokenizer.factory(new CoreLabelTokenFactory(), ""); 

Tokenizer«CoreLabel» tokenizer - 
tokenizerFactory.getTokenizer(new StringReader (question)); 

List«CoreLabel» wordList - tokenizer.tokenize(); 

Tree parseTree - lexicalizedParser.apply (wordList); 


TreebankLanguagePack tlp - 
lexicalizedParser.treebankLanguagePack(); 
GrammaticalStructureFactory gsf - 
tlp.grammaticalStructureFactory(); 
GrammaticalStructure gs - 
gsf.newGrammaticalStructure (parseTree); 
List«TypedDependency» tdl - gs.typedDependenciesCCprocessed(); 
System.out.printlin(tdl); 
for (TypedDependency dependency : tdl) { 
System.out.println("Governor Word: [" + dependency.gov() 
+ "] Relation: [" + dependency.reln() .getLongName () 
+ "] Dependent Word: [" + dependency.dep() + "]"); 


执行 后 结果 如 下 : 


[root (ROOT-0, Who-1), cop(Who-1, is-2), det (president-5, the-3), 
amod(president-5, 32nd-4), nsubj(Who-1, president-5), det(States-9, the- 
7), nn(States-9, United-8), prep of(president-5, States-9)] 


Governor Word: [ROOT] Relation: [root] Dependent Word: [Who/WP] 
Governor Word: [Who/WP] Relation: [copula] Dependent Word: [is/VBZ] 


Governor Word: [president/NN] Relation: [determiner] Dependent Word: 
[the/DT] 


Governor Word: [president/NN] Relation: [adjectival modifier] Dependent 


Word: 


[32nd/JJ] 


Governor Word: [Who/WP] Relation: [nominal subject] Dependent Word: 
[president/NN] 


Governor Word: [States/NNPS] Relation: [determiner] Dependent Word: [the/ 


DT] 


Governor Word: [States/NNPS] Relation: [nn modifier] Dependent Word: 
[United/NNP] 


Governor Word: [president/NN] Relation: [prep collapsed] Dependent Word: 
[States/NNPS] 


这 些 信息 是 判断 问题 类 型 的 基础 。 


7.6.2 ”判断 问题 类 型 


天 系 判断 揭示 出 了 问题 类 型 判断 的 方法 ， 比 如 去 判断 这 是 一 个 “who” 的 问题 ， 我 们 应 当 验 证 天 系 是 nominal subject (名 词 
性 主语 ) 且 核 心 词 是 who。 


下 面 的 代码 中 ， 我 们 遍历 问题 中 的 依赖 关系 类 型 及 核心 词 是 否 相 答 ， 如 果 相 符 则 调用 processWhoQuestion 万 法 进行 处 理 : 


for (TypedDependency dependency : tdl) { 


if 


("nominal subject".equals( dependency.reln() .getLongName () ) 
&& "who".equalsIgnoreCase( dependency.gov().originalText())) { 
processWhoQuestion (tdl); 


这 种 简单 的 区 分 相当 有 效 。 它 可 以 正确 地 识别 同一 问题 下面 的 所 有 变化 : 


Who 
Who 
The 
The 


is the 32nd president of the United States? 
was the 32nd president of the United States? 
32nd president of the United States was who? 


32nd president is who of the United States? 


我 们 还 可 以 使 用 不 同 的 选择 标准 来 判断 其 他 问题 类 型 。 下 面 的 问题 会 家 分 类 为 其 他 问题 类 型 : 


What was the 3rd President's party? 
When was the 12th president inaugurated? 


Where is the 30th president's home town? 


我 们 可 以 通过 下 表 中 的 关系 判断 问题 类 型 : 


T CUTE x 


这 种 方法 确实 需要 硬 编码 天 系 。 


76.3 ”搜索 答案 


一 旦 我 们 知道 了 问题 的 类 型 ， 残 可 以 用 文本 中 的 天 系 来 回答 问题 。 为 了 说明 这 一 过 程 ， 我 们 将 使 用 processWhoQuestion 方 
法 。 这 种 方法 使 用 TypedDependency 列 表 来 仓储 所 需要 的 信息 以 回答 关于 总 统 的 “who” 类 问题 。 上 有 具体 来 说 ， 我 们 需要 根据 总 统 
的 任职 顺序 知道 该 问题 对 应 的 总 统 。 


createpPresidentList 访 法 生成 一 个 列表 用 以 查找 相关 信息 。 该 方法 读 取 文 件 PresidentList 中 总 统 的 名 字 、 融 职 及 印 任 年 份 ， 内 
容 的 格式 如 下 : 


George Washington (1789-1797) 


下 面 的 createPresidentList 方 法 使 用 OpenNLP 的 SimpleTokenizer 类 对 每 行进 行 分 词 ， 总 统 名 字 由 不 定 个 数 的 词 项 组 成 ， 确 
定 轧 统 名 字 后 时 间 便 容易 提取 : 


public List«President» createPresidentList() | 
ArrayList«President» list = new ArrayList<>(); 
String line - null; 
try (FileReader reader - new FileReader("PresidentList"); 
BufferedReader br - new BufferedReader(reader)) | 
while ((line = br.readLine()) != null) { 
SimpleTokenizer simpleTokenizer - 
SimpleTokenizer.INSTANCE; 
String tokens[] = simpleTokenizer.tokenize(line); 
String name = ""; 
String start = M; 
String end = ""; 
int i = O0; 
while (!"(".equals(tokens[i])) (| 
name += tokens[i] + " "; 
i++; 
| 
start = tokens[i + 1]; 
end = tokens[i + 3]; 
if (end.equalsIgnoreCase("present")) | 


end - start; 
} 
list.add(new President (name, 
Integer.parselInt (start), 
Integer.parselInt (end) ) ) ; 
} 
| catc OException ex 
tch (IOE t ) 
// Handle exceptions 


| 


return list; 


President 类 存储 了 总 统 的 信息 ， 遗 漏 了 getter 方 法 ， 如 下 : 


public class President { 
private String name; 
private int start; 
private int end; 


public President (String name, int start, int end) { 
this.name = name; 
this.start = start; 
this.end = end; 


下 面 是 processWhoQuestion 万 法 。 我 们 继续 使 用 类 型 依赖 关系 来 提取 问题 的 序数 值 。 如 果 核 心 词 是 president (上 总统 ) BH 
天 系 词 是 adjectival modifier (形容 词 修饰 语 ) ， 那 么 依赖 词 就 是 序数 词 。 将 这 一 字符 串 传 递 给 getOrder 方 法 ， 可 返回 整数 类 型 的 
序数 词 。 结 果 要 加 上 1， 因 为 总 统 的 列表 也 是 从 1 开始 的 : 


public void processWhoQuestion(List«TypedDependency» tdl) { 
List<President> list = createPresidentList(); 
for (TypedDependency dependency : tdl) { 
if ("president".equalsIgnoreCase( 
dependency.gov() .originalText () ) 
&& "adjectival modifier".equals ( 
dependency.reln().getLongName())) { 
String positionText = 
dependency.dep() .originalText () ; 
int position = getOrder (positionText) -1; 
System.out.println("The president is " 
+ list.get(position).getName()); 


| 


getOrder 方 法 如 下 ， 仅 仅 是 取出 第 一 个 数字 字符 并 转换 为 整数 。 更 复杂 的 方法 可 以 是 查找 序数 词 的 其 他 变种 ， 如 “第 
一 和 RENS: 


private static int getOrder(String position) | 
String tmp = TR- 
int 1 = 0; 
while (Character.isDigit(position.charAt(i))) | 
tmp += position.charAt (i++); 


| 


return Integer.parseInt (tmp); 


执行 结果 如 下 : 


The president is Franklin D . Roosevelt 


这 一 流程 是 提取 问题 信息 并 回答 问题 的 一 个 简单 的 例子 。 其 他 类 型 的 问题 解决 方法 基本 相同 ， 留 给 读者 作为 练习 。 


7.7 AHS 


本 章 我 们 讨论 了 解析 文本 、 提 取信 息 的 过 程 ， 可 以 应 用 于 语法 检查 、 机 器 翻译 等 一 系列 目的 。 文 本 内 的 天 系 有 许多 种 ， 诸 如 父 
子 天 系 、 空 间 天 系 等 ， 即 文本 内 元 素 之 间 的 相互 天 系 。 


文本 解析 可 以 得 到 文本 内 存在 的 天 系 ， 可 以 用 来 提取 所 需 的 信息 。 书 中 演示 了 许多 应 用 OpenNLP 和 斯 坦 福 大 学 的 API 进 行文 
本 解析 的 万 法 。 


我 们 还 说 明了 使 用 斯 坦 福 大 学 的 API 判 断 文 本 内 的 共 指 消解 ， 即 两 个 或 以 上 的 表达 式 指 同 同一 个 人 或 物 。 


最 后 我 们 以 问答 系统 为 例 ， 使 用 解析 器 从 间 题 中 提取 关系 ， 并 用 这 些 天 系 提取 信息 ， 用 来 回答 关于 美国 忌 统 的 “who” 类 型 的 
简单 问题 。 


下 一 草 ， 我 们 将 介绍 综合 前 七 草 所 有 的 方法 解决 更 复杂 的 问题 。 


Boe 万 法 组 合 


在 这 一 划 中 ， 我 们 将 使 用 技术 的 组 合 来 解决 自然 语言 处 理 中 的 几 个 问题 。 首 先 ， 我们 简要 介绍 准备 数据 的 过 程 。 然 后 探讨 流水 
线 及 流水 线 的 构建 。 流 水 线 无 非 束 是 组 合 一 系列 任务 来 解决 一 些 问 题 。 流 水 线 的 主要 优点 是 能 够 插入 和 删除 流水 线 中 的 各 种 元 素 ， 
因此 只 需要 很 少 的 改动 ， 丈 可 以 灵活 地 处 理 各 种 问题 。 


斯 坦 福 大 学 的 目 然 语言 处 理 API 能 够 很 好 地 支持 流水 线 结构 ， 我 们 已 经 在 本 书 中 反复 使 用 了 这 套 工 具 。 我 们 将 会 探索 这 种 方法 


的 更 多 细节 ， 然 后 展示 如 何 使 用 OpenNLP 来 构建 一 个 流水 线 。 


在 目 然 语言 处 理 问题 中 ， 准 备 竺 处理 的 数据 是 重要 的 第 一 步 。 我 们 在 第 1 草 中 介绍 了 准备 数据 的 过 程 ， 然 后 在 第 2 草 中 讨论 了 归 
一 化 过 程 。 在 本 章 中 ， 我 们 将 重点 放 在 从 不 同 的 数据 源 中 提取 文本 ， 这 些 数据 源 主要 包括 HTML、Word 和 PDF 文档 。 


斯 坦 福 大 学 APl 中 的 StanfordCoreNLP 类 是 流水 线 的 一 个 很 好 的 例子 。 从 某 种 意义 上 说 ， 它 是 预先 构建 的 ， 实 际 执行 的 任务 取 
决 于 对 流水 线 添加 的 注解 。 这 种 使 用 流水 线 的 方式 适用 于 许多 类 型 的 问题 。 


然而 ， 其 他 的 NLP API 并 不 像 斯 坦 福 大 学 API 那 样 直 接 支持 流水 线 结构 ， 尽 管 构建 更 加 困难 ,但 是 这 些 方 法 对 于 许多 应 用 也 显 
得 更 加 灵活 。 我 们 将 使 用 OpenNLP 来 展示 流水 线 的 构建 过 程 。 


8.1 ”准备 数据 


文本 提取 是 NLP 任务 中 的 第 一 步 。 在 这 里 ， 我 们 将 快速 介绍 一 下 如 何 从 HTML、Word 和 PDF 文档 中 提取 文本 。 虽 然 有 多 个 API 
可 以 支持 这 些 任务 ， 但 我 们 将 主要 使 用 以 下 的 APl: 


: 用 于 HTML 文 档 的 Boilerpipe (https://code.google.com/p/boilerpipe/) 
- 用 于 Word 文 档 的 POI (http://poi.apache.org/index.html) 
: 用 于 PDF 文 档 的 PDFBox (http://pdfbox.apache.org/ ) 


一 些 API 还 支持 使 用 XML 进 行 输 入 和 输出 。 例 如 ,斯坦福 大 学 AP1 中 的 XMLUtils 类 可 以 读 取 XML 文 件 ， 操 作 XML 数 据 。 
LingPipe 软 件 包 中 的 XMLParser 类 也 可 以 解析 XML 文 本 。 


实际 工作 中 ， 人 们 一 般 会 采用 多 种 形式 来 仔 储 数据 ， 并 且 这 综 数 据 通 弟 不 是 简单 的 文本 文件 。 演 示 文 档 仔 储 在 PowerPoint 幻 
灯 卢 中 ， 襄 明 书 会 使 用 Word 文 档 创 建 ， 公 司 提供 的 市 场 宫 销 材料 单间 是 PDF 文档 。 许 多 组 织 和 机 构 还 会 在 互联 网 上 展示 文档 ， 这 
意味 着 许多 有 用 的 信息 保存 在 HTML 文 件 中 。 由 于 这 些 数据 源 的 广泛 性 ， 我 们 需要 使 用 工具 来 提取 文本 以 便 进 行 处 理 。 


8.1.1 使 用 Boilerpipe 从 HTML 中 提取 文本 
我 们 可 以 使 用 一 些 库 从 HTML 文 档 中 提取 文本 。 我 们 将 演示 如 何 使 用 Boilerpipe 来 提取 文本 。 这 是 一 个 灵活 的 APl， 它 不 仪 可 
以 提取 HTML 文 档 中 的 所 有 文本 ， 也 可 以 提取 HTML 文 档 中 的 特定 部 分 ， 比 如 文档 的 标题 或 特定 的 文本 块 。 


在 演示 Boilerpipe 的 时 候 ， 我 们 使 用 的 HTML 页 面 位 于 http://en.wikipedia.org/wiki/Berlin。 下 图 展示 了 这 个 网 页 的 一 部 分 。 
为 了 使 用 Boilerpipe， 你 还 需要 下 载 Xerces Parser 的 二 进 制 代码 ， 这 些 代 码 可 以 从 http://xerces.apache.org/index.html 上 找到 |。 


我 们 首先 创建 一 个 表示 这 个 页 面 的 URL 对 象 ， 代 码 如 下 所 示 ， 其 中 的 try-catch 代 码 块 用 来 处 理 异 冲 : 


try | 
URL url - new 


URL("http://en.wikipedia.org/wiki/Berlin"); 
} catch (MalformedURLException ex) { 
// Handle exceptions 
) catch (BoilerpipeProcessingException | SAXException 
| IOException ex) { 
// Handle exceptions 
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The Free Encyclopedia | From Wikipedia, the free encyclopedia Coordinates: @ 52°31'N 1323€ 


Main page This article is about the capital of Germany. For other uses, see Berlin (disambiguation). 
Contents 


Featured content 
Current events of Germany and one of the 16 states of Germany. With a 


Random article population of 3.5 million people,“ Berlin is Germany's 

Donate to Wikipedia largest city. It is the second most populous city proper 

Wikimedia Shop and the seventh most populous urban area in the 

Interaction European Union.P! Located in northeastern Germany on 
Help the banks of River Spree, it is the center of the Berlin- 
About Wikipedia Brandenburg Metropolitan Region, which has about 4.5 
Community portal million residents from over 180 nations. [GIZJ8I9] Due to its 
MARRE location in the European Plain, Berlin is influenced by a 

temperate seasonal climate. Around one third of the 


Tools city's area is composed of forests, parks, gardens, rivers 
What links here and lakes [10] 


Related changes 
Upload file First documented in the 13th century, Berlin became the 


Special pages capital of the Margraviate of Brandenburg (1417), the 

Permanent link Kingdom of Prussia (1701—1918), the German Empire 

me t ETN, (1871-1918), the Weimar Republic (1919-1933) and the | Clodwise: Charlottenburg Palace, Femsehturm Berlin. 

EADEM: Third Reich (1933-1945)! Bertin in the 1920s was the | | Relssisa balling. Balin Cota a 
third laraest municipality in the world [!?! After World War 


我 们 将 使 用 两 个 类 来 提取 文本 。 第 一 个 是 HTMLDocument 类 ， 它 用 来 表示 HTML 文 档 。 第 二 个 是 TextDocument 类 ， 它 表示 


HTML 文 档 中 的 文本 。TextDocument 中 可 以 包含 一 个 或 多 个 TextBlock 对 象 ， 这 些 对 象 可 以 根据 需要 进行 单独 访问 。 


下 一 步 ， 我 们 给 维基 百科 柏林 网 页 创建 一 个 HTMLDocument 实 例 。Boilerpipe-SAXInput 类 使 用 该 输入 源 创 建 一 个 
TextDocument 实 例 。 随 后 使 用 TextDocument 类 中 的 getText 方 法 获取 文本 。getText 方 法 有 两 个 参数 。 第 一 个 参数 指定 了 是 否 包 
含 标注 为 内 容 的 TextBlock 实 例 。 第 二 个 参数 指定 了 是 人 否 包含 非 内 容 的 TextBlock 实 例 。 在 这 个 例子 中 ， 这 两 种 类 型 的 TextBlock 实 
例 都 需要 被 包含 : 


HTMLDocument htmlDoc = HTMLFetcher.fetch(url); 
InputSource is - htmlDoc.toInputSource(); 
TextDocument document = 

new BoilerpipeSAXInput (is) .getTextDocument () ; 
System.out.println(document.getText (true, true) ) ; 


因为 原 网 页 很 大 ， 所 以 这 一 段 代码 的 输出 是 很 庞大 的 。 程 序 和 输出 的 一 部 分 如 下 所 示 : 


Berlin 
From Wikipedia, the free encyclopedia 
Jump to: navigation , search 


This article is about the capital of Germany. For other uses, see Berlin 
(disambiguation) 


Privacy policy 
About Wikipedia 
Disclaimers 
Contact Wikipedia 
Developers 


Mobile view 


getTextBlocks 方 法 将 会 返回 一 个 包含 TextBlock 对 象 的 列表 。 除 了 可 以 获取 文本 之 外 ， 也 有 一 些 方法 可 以 获取 文本 的 信息 ， 比 
如 一 块 文本 中 的 字符 个 数 。 


8.1.2 ”使 用 POI 从 Word 文 档 中 提取 文本 


Apache POI 项 目 (http://poi.apache.org/index.html) 提供 的 API 可 以 用 来 从 微软 Office 产 品 中 提取 信息 。 这 个 扩展 库 能 够 
从 Word 文 档 和 其 他 Office 产 品 中 提取 信息 ， 如 Excel 和 Outlook。 


当下 载 使 用 POI 库 时 ， 还 需要 用 到 XMLBeans (http://xmlbeans.apache.org/) 。XMLBeans 的 二 进 制 文件 可 以 从 站 
Eahttp://www.java2s.com/Code/Jar/x/Downloadxml-beans230jar.htm3X1S. 


我 们 的 主要 关注 点 在 于 如 何 使 用 POI 从 Word 文 档 中 提取 文本 。 为 了 演示 POI 的 使 用 ， 我 们 将 使 用 一 个 名 为 
TestDocument.docx 的 文档 ， 下 图 显示 了 该 文档 的 内 容 : 


Piratesare people who use ships to rob other ships. At least this is a common definition. They have also 
been known as buccaneers, corsairs, and privateers.In recenttimes, the term has been expanded to 
include all sorts of villains including people who pirate software. 


List of Historical Pirates 


This is not intended to be a a complete list. A fuller list can be found at 
irates. Our list includes: 


& John Crabbe 


€ = Sir Francis Drake (As least to the Spanish) 
è Blackbeard (Edward Teach) 

*  'Calico Jack" John Rackham 

*  Chui ^-poo 

e Johnny Depp (Opps, acted as a pirate) 


How to become a Pirate 


For those of you who have the inclination, the following is one approach to become a pirate: 
1. Recruitfellow scurvy dogs 
2. Steala ship 
3. Plunderthe high seas 
4 Getcaught 
5. Walkthe plank 


This is not a recommended occupation. 


不 同 的 Word 版 本 使 用 的 文件 格式 不 一 样 。 为 了 简化 文本 提取 类 的 选择 ， 我 们 使 用 ExtractorFactory 工 厂 类 。 


尽管 POI 的 功能 非常 强大 ， 提 取 文 本 的 过 程 却 很 简单 。 正 如 下 面 程序 展示 的 那样 ，FilelnputStream 对 象 表示 文档 
TestDocument.docx， 然 后 使 用 ExtractorFactory 类 中 的 createExtractor 方 法 来 选择 适当 的 POITextExtractor 实 例 。 
POITextExtractor 类 是 几 个 不 同 提取 器 的 基 类 。 最 后 再 用 getText 方 法 从 提取 器 中 获取 文本 : 


try { 
FileInputStream fis = 
new FileInputStream("TestDocument .docx") ; 
POITextExtractor textExtractor = 
ExtractorFactory.createExtractor(fis); 
System.out.println(textExtractor.getText()); 
} catch (IOException ex) | 
// Handle exceptions 


} catch (OpenXML4JException | XmlException ex) | 
// Handle exceptions 


程序 的 部 分 输出 如 下 所 示 : 


Pirates 


Pirates are people who use ships to rob other ships. At least this is a 
common definition. They have also been known as buccaneers, corsairs, and 
privateers. In 


Our list includes: 
Gan Ning 
Awilda 


Get caught 
Walk the plank 


This is not a recommended occupation. 


当 需 要 了 解 更 多 的 Word 文 档 属性 时 ，POI 中 的 POIXMLPropertiesTextExtractor 类 提供 了 访问 文档 的 核心 属性 、 扩 展 属 性 和 
自 定 义 属 性 的 方法 。 有 两 种 方法 可 以 轻易 地 得 到 一 个 包含 许多 属性 的 字符 串 。 


` 第 一 种 方法 是 先 使 用 getMetadataTextExtractot 方 法 ， 然 后 再 使 用 getText 方 法 。 代 码 如 下 : 


POITextExtractor metaExtractor = 
textExtractor.getMetadataTextExtractor(); 
System.out.println(metaExtractor.getText()); 


- 第 二 种 方法 是 先 使 用 XWPFDocument 表 示 这 个 Word 文 档 ， 然 后 再 创建 一 个 POIXMLPropertiesTextExtractotr 类 的 实例 。 代 码 如 


fis = new FileInputStream("TestDocument.docx"); 
POIXMLPropertiesTextExtractor properties - 


new POIXMLPropertiesTextExtractor (new 
XWPFDocument(fis)); 
System.out.println(properties.getText()); 


无 论 选择 哪 种 方法 ， 它 们 的 结果 都 如 下 所 示 : 
Created = Sat Jan 03 18:27:00 CST 2015 
CreatedString = 2015-01-04T00:27:00Z 
Creator = Richard 


LastModifiedBy - Richard 


LastPrinted = Sat Jan 03 18:27:00 CST 2015 
LastPrintedString = 2015-01-04T00:27:00Z 
Modified - Mon Jan 05 14:01:00 CST 2015 
ModifiedString = 2015-01-05T20:01:002Z 
Revision - 3 


Application - Microsoft Office Word 


AppVersion - 12.0000 
Characters - 762 
CharactersWithSpaces - 894 
Company = 
HyperlinksChanged - false 


Lines = 6 
LinksUpToDate - false 


Pages = 1 
Paragraphs = 1 
Template = Normal.dotm 
TotalTime = 20 
CoreProperties 类 可 以 存放 文档 的 核心 属性 。getCoreProperties 方 法 可 以 访问 这 些 属性 : 


CoreProperties coreProperties = properties.getCoreProperties(); 
System.out.println(properties.getCorePropertiesText()); 


文档 的 核心 属性 如 下 所 示 : 


Created = Sat Jan 03 18:27:00 CST 2015 
CreatedString = 2015-01-04T7T00:27:00Z 
Creator - Richard 

LastModifiedBy - Richard 

LastPrinted - Sat Jan 03 18:27:00 CST 2015 
LastPrintedString = 2015-01-04T7T00:27:00Z 
Modified - Mon Jan 05 14:01:00 CST 2015 
ModifiedString = 2015-01-05T20:01:00Z 


Revision = 3 


如 果 需 要 访问 特定 的 属性 ， 我 们 可 以 使 用 一 些 单独 的 方法 ， 比 如 getCreator、getCreated 和 getModified。 扩 展 属性 可 以 由 
ExtendedProperties 类 表示 ， 可 以 使 用 getExtendedProperties 方 法 访问 文档 的 扩展 属性 ， 代 码 如 下 : 


ExtendedProperties extendedProperties = 
properties.getExtendedProperties(); 
System.out.println(í(properties.getExtendedPropertiesText()); 


文档 的 扩展 属性 输出 为 : 


Application = Microsoft Office Word 
12.0000 
762 


AppVersion 


Characters 


CharactersWithSpaces = 894 


Company - 


HyperlinksChanged = false 
Lines - 6 

LinksUpToDate - false 
Pages - 1 

Paragraphs - 1 

Template - Normal.dotm 
TotalTime - 20 


如 果 需 要 访问 文档 特定 的 扩展 属性 ， 可 以 使 用 getApplication、getAppVersion 和 getPages 等 方法 。 


8.1.3 ”使 用 PDFBox 从 PDF 文档 中 提取 文本 
Apache PDFBox 项 目 提 供 了 处 理 PDF 文 档 的 APl。PDFBox 除 了 可 以 提取 文本 ， 还 可 以 完成 其 他 任务 ， 这 些 任务 包括 合并 文 
档 ， 填 写 表格 ,创建 PDF 等 。 在 这 里 ， 我 们 仪 仪 演示 文本 提取 过 程 。 


为 了 演示 PDFBox 的 使 用 ， 我 们 将 用 到 一 个 名 为 TestDocument.pdf 的 文档 。 这 个 PDF 文 档 是 由 上 一 节 中 的 
TestDocument.docx 文 件 另 存 为 得 到 的 。 


处 理 过 程 很 简单 。 首 先 为 PDF 文 档 创 建 一 个 File 对 象 ， 然后 使 用 PDDocument 类 表示 这 个 文档 ， 最 后 使 用 PDFTextStripper 类 
中 的 getText 方 法 进行 实际 的 文本 提取 工作 。 代 码 如 下 所 示 : 


try 4 
File file = new File("TestDocument.pdf"); 


PDDocument pdDocument - PDDocument.load(file); 
PDFTextStripper stripper - new PDFTextStripper(); 
String text = stripper.getText (pdDocument) ; 
System.out.printlin(text); 
pdDocument.close(); 

} catch (IOException ex) { 
// Handle exceptions 


由 于 原文 档 较 长 ， 这 里 只 给 出 部 分 输出 结果 : 


Pirates 


Pirates are people who use ships to rob other ships. At least this is a 
common definition. They have also been known as buccaneers, corsairs, and 


privateers. In 


Our list includes: 
M Gan Ning 
KX Awilda 


4. Get caught 
5. Walk the plank 


This is not a recommended occupation. 


aks 


这 种 方法 还 可 以 提取 出 文档 中 编号 列表 项 前 面 的 数字 和 特殊 的 编号 标记 字符 。 


8.2 AKK 


流水 线 可 以 看 作 一 系列 的 操作 ， 其 中 每 一 个 操作 的 输出 都 被 用 作 另 一 个 操作 的 输入 。 我 们 在 前 面 章 节 里 已 经 看 天 了 流水 线 的 几 
个 例子 ， 但 是 这 些 例子 都 比较 短 。 尤 其 是 我 们 看 到 了 斯 坦 福 大 学 APl 中 的 StanfordCoreNLP 类 ， 结 合 注解 的 使 用 ， 很 好 地 支持 了 流 
水 线 这 一 概念 。 我 们 将 在 下 一 节 讨 论 这 种 方法 。 

流水 线 的 优点 之 一 是 ， 如 果 构 建 得 当 ， 它 可 以 方便 地 添加 和 删除 处 理 元 件 。 例 如 ， 如 果 流 水 线 中 的 某 一 个 步骤 是 将 字符 转换 为 
小 写 ， 那 么 我 们 也 可 以 轻易 地 删除 这 一 步 又 ， 与 此 同时 ， 流 水 线 的 其 余 元 件 保持 不 变 。 

然而 ， 也 有 些 流水 线 没有 这 么 灵活 ， 某 一 步 可 能 需要 上 一 步 才能 正常 工作 。 在 由 StanfordCoreNLP 类 支持 的 流水 线 中 ， 为 了 
支持 POS 处 理 ， 还 需要 加 上 一 些 注解 : 


props.put("annotators", "tokenize, ssplit, pos"); 


如 果 我 们 删除 ssplit 注 解 ， 程 序 将 会 出 现 一 个 异 弟 : 


java.lang.IllegalArgumentException: annotator "pos" requires 
annotator "sspliE*" 


在 斯 坦 福 大 学 API 中 ， 我 们 不 需要 化 费 很 多 精力 来 构建 流水 线 ， 但 是 其 他 的 API 可 能 需要 化 费 大 量 精力 。 我 们 将 在 8.3 节 中 介绍 
复杂 流水 线 的 构建 。 


8.2.1 使 用 Stanford 流 水 线 


在 本 节 中 ， 我 们 将 讨论 Stanford 沅 水 绪 的 更 多 细节 。 虽 然 我 们 在 这 本 书 的 几 个 例子 中 使 用 过 流水 线 ， 但 是 还 没有 充分 挖掘 出 它 
的 功能 。 通 过 之 前 的 使 用 ， 你 现在 可 以 更 好 地 理解 如 何 使 用 流水 线 。 阅 读 完 这 部 分 以 后 ， 你 将 会 更 深入 地 了 解 到 流水 线 的 功能 和 适 
FRG. 


edu.stanford.nlp.pipeline 程 序 包 中 包含 了 StanfordCoreNLP 类 和 annotator 类 。 流 水 线 通 常 的 使 用 方法 如 下 所 示 。 这 段 代码 
处 理 的 是 一 个 名 为 text 的 字符 串 。Properties 类 中 包含 了 注释 的 名 称 : 


String text = "The robber took the cash and ran."; 
Properties props - new Properties(); 
props .put ("annotators", 

"tokenize, ssplit, pos, lemma, ner, parse, dcoref"); 
StanfordCoreNLP pipeline = new StanfordCoreNLP (props); 


Annotation 类 表示 待 处理 的 文本 。 它 的 构造 器 使 用 待 处理 的 字符 串 作 为 参数 ， 为 Annotation 对 象 添 加 一 个 
CoreAnnotations.TextAnnotation 实 例 。StanfordCoreNLP 类 中 的 annotate 方 法 可 以 将 前 面 属性 列表 中 指定 的 注释 应 用 到 
Annotation 对 象 上 : 


Annotation annotation = new Annotation(text); 
pipeline.annotate (annotation); 


CoreMap 接 口 是 折 有 注释 对 象 的 基 接 口 。 它 使 用 类 对 象 作为 键 。TextAnnotation 注 释 类 型 就 是 一 个 表示 文本 的 CoreMap 
键 。CoreMap 键 可 以 与 各 种 类 型 的 注释 一 起 使 用 ， 比 如 那些 在 属性 列表 中 定义 的 注释 。 值 取决 于 键 的 类 型 。 


下 图 摘 述 了 类 和 接口 的 层次 结构 。 它 是 类 和 接口 乙 间 关系 的 简化 版 本 。 水 平 线 代 表 接口 的 实现 ， 而 垂直 续 表 示 类 之 间 的 继承 。 


CoreLabel 


AnnotationPipeline 
StanfordCoreNLP 


Fel HEAR BIB f Vos uEannotate75;ABJE)UR. keyset/5;ARhükR[IBI— $E G, IZRABA f Annotation ARS 
注释 键 。 程 序 将 分 别 显示 annotate 方 法 应 用 前 和 应 用 后 键 的 值 。 


System.out.println("Before annotate method executed ") ; 


Set<Class<?>> annotationSet = annotation.keySet(); 
for(Class c : annotationSet) { 
System.out.println("NtClass: " + c.getName()); 


pipeline.annotate (annotation); 


System.out.println("After annotate method executed "); 


annotationSet - annotation.keySet(); 
for(Class c : annotationSet) { 
System.out.println("NtClass: " + c.getName()); 


程序 的 输出 结果 如 下 。 结 果 显 示 : Annotation 对 象 的 创建 使 得 TextAnnotation 扩 展 被 添加 a 到 注释 中 。 执 行 annotate 方 法 以 
后 ， 还 有 一 些 附加 的 注释 也 被 添加 了 进去 : 


Before annotate method executed 


Class: edu.stanford.nlp.ling.CoreAnnotations.TextAnnotation 


After annotate method executed 
Class: edu.stanford.nlp.ling.CoreAnnotations.TextAnnotation 
Class: edu.stanford.nlp.ling.CoreAnnotations.TokensAnnotation 
Class: edu.stanford.nlp.ling.CoreAnnotations.SentencesAnnotation 


Class: edu.stanford.nlp.dcoref.CorefCoreAnnotations. 
CorefChainAnnotation 


CoreLabel 类 实现 了 CoreMap 接 口 。 它 代表 一 个 单独 的 词 ， 注 释 信 息 附 加 在 这 个 词 上 。 所 附 的 信息 取决 于 流水 线 创建 时 的 属 
性 集 。 然 而 ， 还 可 以 使 用 一 些 位 置信 息 ， 比 如 它 的 开始 和 结束 位 置 或 者 实体 前 后 的 空格 。 


CoreMap 或 者 CoreLabel 中 的 get 方 法 的 返回 信息 由 它 的 参数 确定 。 重 载 的 get 方 法 返回 值 取决 于 参数 类 型 。 举 个 例子 ， 下 面 


是 SentencesAnnotation 类 的 声明 ， 它 实现 了 CoreAnnotation<List<CoreMap> > : 


public static class CoreAnnotations.SentencesAnnotation 
extends Object 
implements CoreAnnotation<List<CoreMap>> 


下 列 语 句 中 ，SentencesAnnotation 类 返回 的 是 一 个 List<CoreMap> 实 例 : 


List«CoreMap» sentences = 
annotation.get (SentencesAnnotation.class) ; 


类 似 地 ，TokensAnnotation 类 实现 了 CoreAnnotation<List<CoreLabel> >: 


public static class CoreAnnotations.TokensAnnotation 
extends Object 
implements CoreAnnotation<List<CoreLabel>> 


Eb getA AIR EIT List « CoreLabel» $A, 3t£Efor-eachi&t&rP[sHi: 


for (CoreLabel token : sentence.get(TokensAnnotation.class)) { 


在 前 面 的 章节 中 ， 我 们 已 经 使 用 了 SentencesAnnotation 类 来 访问 一 个 注释 中 的 句子 : 


List«CoreMap» sentences = 
annotation.get (SentencesAnnotation.class) ; 


CoreLabel 类 用 来 访问 一 个 句子 中 单个 的 词 ， 具 体 代码 如 下 : 


for (CoreMap sentence : sentences) | 
for (CoreLabel token: 
sentence.get (TokensAnnotation.class)) { 
String word = token.get (TextAnnotation.class) ; 
String pos = token.get (PartOfSpeechAnnotation.class) ; 


Annotator 的 参数 选项 可 以 查阅 http://nlp.stanford.edu/software/corenlp.shtml。 下 面 的 代码 演示 了 如 何 使 用 一 个 注释 来 
指定 POS 模 型 。 使 用 Property 类 中 的 put 方 法 来 设置 模型 中 的 pos.model 属 性 : 


props.put("pos.model", 
"C:/.../Models/english-caseless-left3words-distsim.tagger"); 


下 表 总 结 了 注释 的 使 用 方法 : 第 一 列 是 属性 列表 中 的 字符 串 ， 第 二 列 只 列 出 了 基本 的 注解 类 ， 第 三 列 是 它们 典型 的 使 用 方法 。 


属性 名 称 基本 的 注释 类 使 用 方法 
tokenize Aris] 
cleanxml 移 除 XML 标记 
ssplit 把 词 项 拆 分 成 句子 
pos 创建 POS 标注 
lemma il EE IS 
ner 创建 NER 标注 
regexner 使 用 正则 表达 式 创 建 NER 标注 
sentiment 情感 分 析 
truecase 真实 案例 分 析 
parse 生成 解析 树 
Depparse 句法 依存 分 析 
dcoref 共 指 消解 

| MachineReadingAnnotations 


relation MachineReading Annotations RATER 
使 用 下 面 的 代码 创建 一 个 流水 线 : 


String text = "The robber took the cash and ran."; 
Properties props - new Properties(); 
props.put ("annotators", 

"tokenize, ssplit, pos, lemma, ner, parse, dcoref") ; 
StanfordCoreNLP pipeline = new StanfordCoreNLP (props) ; 


以 下 结果 展示 了 注释 添加 的 过 程 。 我 们 可 以 看 到 每 个 注释 添加 时 的 情况 : 


Adding annotator tokenize 


TokenizerAnnotator: No tokenizer type provided. Defaulting to 
PTBTokenizer. 


Adding annotator ssplit 
edu.stanford.nlp.pipeline.AnnotatorlImplementations: 
Adding annotator pos 


Reading POS tagger model from edu/stanford/nlp/models/pos-tagger/english- 
left3words/english-left3words-distsim.tagger ... done [2.5 sec]. 


Adding annotator lemma 
Adding annotator ner 


Loading classifier from edu/stanford/nlp/models/ner/english.all.3class. 
distsim.crf.ser.gz ... done [6.7 sec]. 


Loading classifier from edu/stanford/nlp/models/ner/english.muc.7class. 
distsim.crf.ser.gz ... done [5.0 sec]. 


Loading classifier from edu/stanford/nlp/models/ner/english.conll.4class. 
distsim.crf.ser.gz ... done [5.5 sec]. 


Adding annotator parse 


Loading parser from serialized file edu/stanford/nlp/models/lexparser/ 
englishPCFG.ser.gz ...done [0.9 sec]. 


Adding annotator dcoref 


当 使 用 annotate 方 法 时 ， 我 们 可 以 使 用 timinglnformation 方 法 来 得 看 各 个 步骤 所 化 费 的 时 间 ， 代 码 如 下 : 
System.out.println("Total time: " + pipeline.timingInformation()); 


结果 如 下 : 


Total time: Annotation pipeline timing information: 
TokenizerAnnotator: 0.0 sec. 
WordsToSentencesAnnotator: 0.0 sec. 
POSTaggerAnnotator: 0.0 sec. 

MorphaAnnotator: 0.1 sec. 

NERCombinerAnnotator: 0.0 sec. 


ParserAnnotator: 2.5 sec. 


DeterministicCorefAnnotator: 0.1 sec. 


TOTAL: 2.8 sec. for 8 tokens at 2.9 tokens/sec. 


8.2.2 ”在 Standford 流 水 线 中 使 用 多 核 处 理 器 

annotate 方 法 能 够 充分 利用 多 核 处 理 器 。 它 是 一 个 重 载 的 方法 ， 其 中 有 一 个 重 载 的 版 本 可 以 用 Ilterable<Annotation> 实 例 作 
为 参数 。 这 个 方法 将 充分 利用 可 用 的 处 理 器 来 处 理 Annotation 实 例 。 

我 们 使 用 前 面 已 经 定义 的 pipeline 对 象 来 展示 这 个 版 本 的 annotate 方 法 。 


下 和 抑 ， 我 们 用 4 个 短 句子 创建 4 个 Annotation 对 象 。 为 了 区 分 利用 这 项 技术 ， 最 好 使 用 一 个 更 大 的 数据 集 : 


Annotation annotationl = new Annotation ( 
"The robber took the cash and ran."); 
Annotation annotation2 = new Annotation ( 


"The policeman chased him down the street."); 
Annotation annotation3 = new Annotation ( 
"A passerby, watching the action, tripped the thief " 
+ "as he passed by."); 
Annotation annotation4 = new Annotation ( 


"They all lived happily ever after, except for the thief " 
+ "of course."); 


ArrayList 类 实现 了 lterable 接 口 。 我 们 先 创 建 一 个 ArrayList 实 例 ， 然 后 把 4 个 Annotation 对 象 添 加 进去 ， 将 列表 分 配给 一 个 


lterable 将 量 : 


ArrayList«Annotation» list - new ArrayList(); 
list.add(annotationl); 


I 


list.add(annotation2 


7 


/ 


) 
list.add(annotation3) ; 
list.add(annotation4) 
Iterable<Annotation> iterable = list; 


随后 执行 annotate 方 法 : 


pipeline.annotate(iterable); 


f 


我 们 将 使 用 annotation2 方 法 来 展示 每 个 词 及 其 POS: 


List«CoreMap» sentences = 
annotation2.get (SentencesAnnotation.class) ; 


for (CoreMap sentence : sentences) { 


for (CoreLabel token 
sentence.get(TokensAnnotation.class)) | 


String word - token.get(TextAnnotation.class); 
String pos = token.get (PartOfSpeechAnnotation.class) ; 
System.out.println("Word: " + word + " POS Tag: " + pos); 


| 

结果 如 下 : 
Word: The POS Tag: DT 
Word: policeman POS Tag: NN 
Word: chased POS Tag: VBD 
Word: him POS Tag: PRP 
Word: down POS Tag: RP 
Word: the POS Tag: DT 
Word: street POS Tag: NN 
Word: . POS Tag: . 


上 面 的 代码 表明 ，Standford 流 水 线 可 以 轻易 地 实现 并 行 处 理 。 


8.3 ”创建 一 个 文本 搜索 的 流水 线 


搜索 是 一 个 丰富 且 复杂 的 话题 。 为 了 执行 一 次 搜索 操作 ， 我 们 可 能 需要 用 到 各 种 类 型 的 搜索 算法 。 在 这 里 ， 我 们 将 展示 如 何 使 
用 各 种 各 样 的 NLP 技 术 来 实现 文本 搜索 。 


在 大 多 数 机 器 上 ， 单 个 的 文本 文档 可 以 在 合理 的 时 间 内 得 到 处 理 。 然 而 ， 当 需要 搜索 多 个 大 型 文档 时 ， 常 见 的 方法 是 创建 一 个 
率 引 。 这 种 方法 可 以 让 搜索 过 程 在 合理 的 时 间 内 完成 。 


我 们 将 演示 创建 论 引 的 一 种 方法 ， 然 后 使 用 紊 引 进行 搜索 操作 。 我 们 这 里 使 用 的 文本 不 是 很 大 ， 但 也 足以 演示 这 一 过 程 了 。 
我 们 需要 做 的 是 : 


1) 从 文件 中 读 取 文 本 

2) 分 词 并 判断 句子 的 边界 
3) XR Fin] 

4) 累计 索引 统计 值 

5) 写 入 索引 文件 

下 面 几 个 因素 会 影响 到 索引 文件 的 内 容 : 
. 去 除 停 用 词 

区 分 大 小 写 的 搜索 

. 寻找 同义词 

. 词 干 和 词 形 还 原 

- 允许 跨越 句子 边界 搜索 


我 们 将 使 用 OpenNLP 来 演示 这 个 过 程 。 这 个 例子 的 目的 是 为 了 说 明 如 何在 一 个 流水 线 中 组 合 多 种 NLP 技 术 来 解决 搜索 类 型 的 
问题 。 这 不 是 一 个 全 面 的 解决 方案 ,我 们 将 忽略 一 些 技术 ， 比 如 词 干 提取 。 此 外 ， 这 里 不 会 实际 地 创建 一 个 过 引 文件 ， 而 是 将 它 作 
为 练习 留 给 读者 。 人 在 这 里 ， 我 们 将 专注 于 如 何 使 用 NLP 技术 。 


具体 而 言 ， 我 们 将 : 

` 把 书 拆 分 成 句子 

` 把 句子 转换 为 小 写 

- 去 除 停 用 词 

` 创建 内 部 索引 数据 结构 


我 们 将 开发 两 个 类 来 支持 索引 数据 结构 : Word 类 和 Positions 类 。 我 们 将 增强 stopWords 类 ， 这 个 类 在 第 2 章 中 已 经 开发 完 
成 ， 在 这 里 我 们 让 它 支 持 removeStopWords 方 法 的 一 个 重 载 版 本 。 这 个 新 版 本 的 方法 将 能 更 方便 地 去 除 停 用 词 。 


我 们 首先 使 用 try-with-resources 语 句 块 来 打开 一 个 文件 输入 流 ， 用 文件 输入 流 来 读 取 人 句子 模型 ， 句 子 模型 保存 在 en-sent.bin 
中 。 然 后 再 打开 竺 处理 的 文件 ， 文 件 内 容 是 儒 勒 . 凡 尔 纳 的 《海底 两 万 里 》。 这 本 书 是 
从 http://www.gutenberg.org/ebooks/164 下 载 的 ， 并 且 做 了 一 些 修改 ， 删 除了 开头 和 结尾 的 谷 登 堡 文本 (Gutenberg text) , 
使 其 更 易于 阅读 : 


try (InputStream is = new FileInputStream(new File( 
"C:/Current Books/NLP and Java/Models/en-sent.bin")); 
FileReader fr = new FileReader ("Twenty Thousands.txt") ; 
BufferedReader br = new BufferedReader(fr)) { 


|! catch (IOException ex) | 
// Handle exceptions 


用 句子 模型 创建 一 个 SentenceDetectorME 类 的 实例 ， 如 下 所 示 : 


SentenceModel model = new SentenceModel (is) ; 
SentenceDetectorME detector = new SentenceDetectorME (model); 


接 下 来 ， 我 们 使 用 StringBuilder 实 例 来 创建 一 个 字符 串 ， 这 个 字符 串 用 来 支持 句子 边界 检测 。 读 取 这 本 书 并 将 它 添加 到 
StringBuilder 实 例 。 然 后 使 用 sentDetect 方 法 创建 句子 数组 ， 如 下 所 示 : 


String line; 
StringBuilder sb = new StringBuilder(); 


while ((line = br.readLine()) != null) { 
sb.append(line + " "); 
| 
String sentences[] = detector.sentDetect(sb.toString()); 


对 于 修改 版 本 的 《海底 两 万 里 》 文 件 ， 这 种 万 法 创建 了 一 个 包含 14859 个 句子 的 数组 。 
接 下 来 ， 我 们 使 用 toLowerCase 方 法 将 文本 全 部 转换 为 小 写 。 这 样 做 的 原因 是 : 在 去 除 停 用 词 时 ， 这 样 的 处 理 可 以 捕获 所 有 的 
停 用 词 。 


for (int i = 0; i < sentences.length; i++) { 


sentences[i] = sentences[il].toLowerCase(); 


转换 为 小 写 和 去 除 停 用 词 会 对 搜索 产生 一 些 限 制 。 然 而 ， 这 可 以 认为 是 这 种 实现 万 法 的 一 个 特点 ， 在 其 他 实现 方法 中 可 以 做 出 


一 定 的 调整 


接 下 来 ， 去 除 停 用 词 。 正 如 前 面 所 说 的 那样 ， 我 们 将 添加 removeStopWords 方 法 的 一 个 重 载 版 本 ， 这 个 重 载 版 本 将 简化 操 
作 。 新 方法 代码 如 下 : 


public String removeStopWords (String words) | 
String arrl] = 
WhitespaceTokenizer.INSTANCE.tokenize (words); 
StringBuilder sb - new StringBuilder(); 
for (int i = 0; i < arr.length; i++) | 
if (stopWords.contains(arr[il)) { 
// Do nothing 
| else { 


sb.append(arr[i]+" "); 


| 


return sb.toString(); 


| 


我 们 使 用 stop-words english 2 _en.txt 文 件 创建 一 个 SttopWords 实 例 。 这 个 文件 可 以 从 https://code.google.com/p/stop- 
words/ 下 载 。 我 们 之 所 以 选择 这 个 文件 ， 是 因为 我 们 认为 这 个 文件 中 的 停 用 词 适合 于 这 本 书 。 
StopWords stopWords = new StopWords("stop-words english 2 en.txt"); 
for (int i = 0; i « sentences.length; i++) { 


sentences[i] = stopWords.removeStopWords (sentences [1] ) ; 


到 了 这 一 步 ， 文 本 已 经 处 理 完 侍 。 下 一 步 ， 我 们 将 人 在 已 处 理 文 本 的 基础 上 ， 创 建 一 个 索引 数据 结构 。 索 引 数 据 结构 将 使 用 


Word 类 和 Positions 类 。Word 类 中 定义 了 两 个 成 员 变 量 : 一 个 是 代表 单词 的 成 员 变 量 Word， 另 一 个 成 员 变 量 是 内 容 为 Positions 


对 象 的 动态 数组 (ArrayList) 。 一 个 文档 中 ， 相 同 的 单词 可 能 会 出 现 多 次 ， 因 此 使 用 动态 数组 来 保存 单词 在 文档 中 出 现 的 位 置 。 这 
个 类 定义 如 下 : 


public class Word { 
private String word; 
private final ArrayList«Positions» positions; 


public Word() { 
this.positions - new ArrayList(); 
| 


public void addWord(String word, int sentence, 
int position) { 
this.word = word; 
Positions counts - new Positions(sentence, position); 
positions.add(counts); 


| 


public ArrayList«Positions» getPositions() { 
return positions; 


public String getWord() { 
return word; 
| 


Positions 类 中 定义 了 两 个 成 员 变 量 : sentence 代 表 句 子 的 数量 ，position 代 表单 词 在 句子 中 出 现 的 位 置 。 这 个 类 定义 如 下 : 


class Positions { 
int sentence; 
int position; 


Positions(int sentence, int position) | 
this.sentence - sentence; 
this.position - position; 


为 了 使 用 这 两 个 类 ， 我 们 需要 创建 一 个 HashMap 实 例 来 保存 文件 中 每 个 单词 的 位 置信 息 : 
HashMap«String, Word» wordMap = new HashMap(); 


HashMap 中 Word 的 创建 方法 如 下 所 示 。 我 们 先 将 句子 进行 分 词 ， 然 后 分 别 检查 词 项 是 否 在 HashMap 中 。HashMap 中 把 单 
词 用 作 键 。 


我 们 用 containsKey 方 法 来 判断 单词 是 否 已 经 添加 到 HashMap 中 。 如 果 已 经 添加 了 ， 那 么 删除 之 前 的 Word 实 例 。 如 果 没 有 添 
加 ， 那 么 就 创建 一 个 新 的 Word 实 例 。 不 论 怎样 ， 新 的 位 置信 息 被 附加 到 Word 实 例 中 ， 然 后 将 Word 实 例 添加 到 HashMap 中 : 


for (int sentenceIndex = 0; 
sentenceIndex < sentences.length; sentenceIndex++) { 
String words[] = WhitespaceTokenizer.INSTANCE.tokenize( 
sentences [sentenceIndex]); 
Word word; 
for (int wordIndex = 0; 
wordIndex < words.length; wordIndex++) | 


String newWord = words [wordIndex] ; 


if (wordMap.containsKey (newWord)) { 
word = wordMap.remove (newWord) ; 
) else { 


word - new Word(); 


| 


word.addWord(newWord, sentenceIndex, wordIndex); 


wordMap.put (newWord, word); 


| 


为 了 演示 实际 的 查找 过 程 ， 我 们 使 用 get 方 法 来 返回 单词 “reef” 对 应 的 Word 对 象 。 然 后 使 用 getPositions 方 法 来 获得 位 置 列 


表 ， 最 终 显示 每 个 位 置 ， 代 码 如 下 : 


Word word = wordMap.get("reef"); 


ArrayList«Positions» positions - word.getPositions(); 
for (Positions position : positions) 1 
System.out.println(word.getWord() + " is found at line " 
+ position.sentence + ", word " 


+ position.position); 


结果 如 下 : 
reef is found at line 0, word 10 
reef is found at line 29, word 6 
reef is found at line 1885, word 8 


reef is found at line 2062, word 12 


这 个 实现 比较 简单 ， 但 也 演示 了 如 何 组 合 不 同 的 NLP 技术 来 创建 和 使 用 系 引 数据 结构 ， 最 后 获得 的 奈 引 数据 结构 可 以 保 仓 为 一 
个 索引 文件 。 我 们 可 以 使 用 以 下 方法 来 增强 搜索 的 性 能 : 


其 他 的 过 滤 操 作 


: 在 Positions 类 中 保存 文档 信息 


: 在 Positions 类 中 保存 章节 信息 
` 提供 搜索 选项 ， 比 如 : 

- 区 分 大 小 写 的 搜索 

+ 精确 文本 搜索 

| 更 好 的 异常 处 理 


我 们 把 这 些 留 给 读者 当 作 练习 。 


8.4 ”本 章 小 结 


在 本 草 中 ， 我 们 讨论 了 数据 的 准备 过 程 和 流水 线 的 创建 过 程 ， 我 们 还 演示 了 从 HTML、Word 和 和 PDF 文档 中 提取 文本 的 方法 。 


我 们 可 以 看 到 ， 流 水 线 无 非 束 是 组 合 一 系列 的 任务 来 解决 问题 。 我 们 可 以 根据 需要 插入 和 删除 流水 线 中 的 各 种 元 素 。 我 们 详细 
探讨 了 Standford 流 水 线 的 结构 。 此 外 ， 还 验证 了 不 同 注释 的 使 用 方法 。 在 学 习 使 用 多 核 处 理 器 的 时 候 ， 我 们 探索 了 流水 线 的 更 多 


aA 


我 们 演示 了 如 何 使 用 OpenNLP 构 建 一 个 流水 线 ， 并 创建 和 使 用 索引 进行 文本 搜索 ， 这 是 另 一 种 构建 流水 线 的 方法 ,与 
Standford 流 水 线 相 比 ， 这 种 构建 方法 允许 更 多 的 变化 。 


本 书 中 ， 我 们 介绍 了 使 用 java 进行 NLP。 我 们 履 兰 了 NLP 中 所 有 重要 的 任务 ， 并 且 演 示 了 如 何 使 用 各 种 各 样 的 NLP 的 APl 来 实 
现 这 些 任务 。NLP 这 个 领域 纷 楷 复 杂 、 莫 可 名 状 ， 我 们 镶 愿 你 在 今后 的 程序 开 肥 过程 中 一 帆 风 顺 。 


